このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240221となっている論文です。

PDF登録状況(公開日: 20240221)

TitleAuthorsAbstract論文公表日・翻訳日
# DDQNに基づくマルチサーバマルチアクセスエッジベクトルネットワークの計算オフロード

Computation Offloading for Multi-server Multi-access Edge Vehicular Networks: A DDQN-based Method ( http://arxiv.org/abs/2404.07215v1 )

ライセンス: Link先を確認
Siyu Wang, Bo Yang, Zhiwen Yu, Xuelin Cao, Yan Zhang, Chau Yuen, (参考訳) 本稿では,マルチサーバモバイルエッジコンピューティングシステムの重複領域におけるマルチユーザオフロード問題について検討する。 元の問題を,オフロード決定段階と要求スケジューリング段階の2つの段階に分ける。 オフロード中、端末がサービスエリアから外れないようにするため、オフロード決定を行う際、人間の行動モデルに従って端末のモビリティパラメータを考慮し、モビリティパラメータとサーバ負荷の両方に基づいてサーバ評価機構を導入し、最適なオフロードサーバを選択する。 サーバリソースをフル活用するために,オフロード要求をスケジューリングするタスクの優先度を考慮したDDQNベースの報酬評価アルゴリズムを設計する。 最後に,提案手法が従来の数理計算法やDQNアルゴリズムよりも優れていることを示す数値シミュレーションを行った。

In this paper, we investigate a multi-user offloading problem in the overlapping domain of a multi-server mobile edge computing system. We divide the original problem into two stages: the offloading decision making stage and the request scheduling stage. To prevent the terminal from going out of service area during offloading, we consider the mobility parameter of the terminal according to the human behaviour model when making the offloading decision, and then introduce a server evaluation mechanism based on both the mobility parameter and the server load to select the optimal offloading server. In order to fully utilise the server resources, we design a double deep Q-network (DDQN)-based reward evaluation algorithm that considers the priority of tasks when scheduling offload requests. Finally, numerical simulations are conducted to verify that our proposed method outperforms traditional mathematical computation methods as well as the DQN algorithm.
翻訳日:2024-07-01 11:58:46 公開日:2024-02-21
# 自動運転車とAIのテスト - サイバーセキュリティ、透明性、堅牢性、公正性の視点と課題

Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness ( http://arxiv.org/abs/2403.14641v1 )

ライセンス: Link先を確認
David Fernández Llorca, Ronan Hamon, Henrik Junklewitz, Kathrin Grosse, Lars Kunze, Patrick Seiniger, Robert Swaim, Nick Reed, Alexandre Alahi, Emilia Gómez, Ignacio Sánchez, Akos Kriston, (参考訳) 本研究では、AI(AI)を自律走行車(AV)に統合することの複雑さを調査し、AIコンポーネントがもたらした課題とテスト手順への影響を調べ、信頼できるAIに必要ないくつかの要件に注目した。 AVのさまざまな運用層におけるAIの役割、EUのAVに関するAI法の影響、Advanced Driver Assistance Systems(ADAS)とAutomated Driving Systems(ADS)のための新しいテスト方法論の必要性、など。 この研究はまた、サイバーセキュリティ監査の重要性、AI意思決定プロセスにおける説明可能性の必要性、およびAVにおける予測システムの堅牢性と倫理的行動を評価するためのプロトコルに関する詳細な分析も提供している。 この論文は、重要な課題を特定し、AV技術におけるAIの研究と開発のための今後の方向性を示唆し、多分野の専門知識の必要性を強調している。

This study explores the complexities of integrating Artificial Intelligence (AI) into Autonomous Vehicles (AVs), examining the challenges introduced by AI components and the impact on testing procedures, focusing on some of the essential requirements for trustworthy AI. Topics addressed include the role of AI at various operational layers of AVs, the implications of the EU's AI Act on AVs, and the need for new testing methodologies for Advanced Driver Assistance Systems (ADAS) and Automated Driving Systems (ADS). The study also provides a detailed analysis on the importance of cybersecurity audits, the need for explainability in AI decision-making processes and protocols for assessing the robustness and ethical behaviour of predictive systems in AVs. The paper identifies significant challenges and suggests future directions for research and development of AI in AV technology, highlighting the need for multidisciplinary expertise.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-21
# 遠隔学習の革新: 学習の進歩とAI駆動学習の比較研究

Revolutionising Distance Learning: A Comparative Study of Learning Progress with AI-Driven Tutoring ( http://arxiv.org/abs/2403.14642v1 )

ライセンス: Link先を確認
Moritz Möller, Gargi Nirmal, Dario Fabietti, Quintus Stierstorfer, Mark Zakhvatkin, Holger Sommerfeld, Sven Schütt, (参考訳) 生成的AIは、教育に大きく、ポジティブな影響を与えることが期待されているが、現時点では、この可能性はまだ大学レベルでは実証されていない。 本研究では,生成型AIが大学生の学習速度を大幅に向上させるという最初の証拠を示す。 IU国際応用科学大学(IU)の40以上のコースで何百人もの遠隔学習学生の学習速度に影響を及ぼすかどうかを検討した。 分析の結果,Synteaの使用は,Synteaのリリース後3カ月目において,平均で約27倍の時間短縮が可能であることが示唆された。 同時に、このアプローチの効果の大きさとスケーラビリティは、生成AIをキーレバーとして含み、パーソナライゼーションによる学習を大幅に改善し、加速させる。

Generative AI is expected to have a vast, positive impact on education; however, at present, this potential has not yet been demonstrated at scale at university level. In this study, we present first evidence that generative AI can increase the speed of learning substantially in university students. We tested whether using the AI-powered teaching assistant Syntea affected the speed of learning of hundreds of distance learning students across more than 40 courses at the IU International University of Applied Sciences. Our analysis suggests that using Syntea reduced their study time substantially--by about 27\% on average--in the third month after the release of Syntea. Taken together, the magnitude of the effect and the scalability of the approach implicate generative AI as a key lever to significantly improve and accelerate learning by personalisation.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-21
# エンタープライズAI導入のためのマルチステップアクションモデルの設計

Designing Multi-Step Action Models for Enterprise AI Adoption ( http://arxiv.org/abs/2403.14645v1 )

ライセンス: Link先を確認
Shreyash Mishra, Shrey Shah, Rex Pereira, (参考訳) 本稿では,企業におけるAI導入を妨げる課題に対処するために,Empsingが設計したクローズドソースAIモデルであるMulti-Step Action Model(MSAM)を紹介する。 本稿では,MSAMの基本原理,設計アーキテクチャ,今後の軌道について概観する。 厳格なテスト手法を通じてMSAMのパフォーマンスを評価し、組織内のAI採用の進展にその潜在的影響を想定している。

This paper introduces the Multi-Step Action Model (MSAM), a closed-source AI model designed by Empsing to address challenges hindering AI adoption in enterprises. Through a holistic examination, this paper explores MSAM's foundational principles, design architecture, and future trajectory. It evaluates MSAM's performance via rigorous testing methodologies and envisions its potential impact on advancing AI adoption within organizations.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-21
# 潜在機能的モジュール性による自己教師付き解釈型センサモレータ学習

Self-Supervised Interpretable Sensorimotor Learning via Latent Functional Modularity ( http://arxiv.org/abs/2403.18947v1 )

ライセンス: Link先を確認
Hyunki Seong, David Hyunchul Shim, (参考訳) エンドツーエンド学習とモジュール型ネットワークアーキテクチャを組み合わせた,自己教師型・解釈可能なセンサモレータ学習のための新しい手法であるMoNetを紹介する。 MoNetは、知覚、計画、制御という、機能的に異なる3つのニューラルネットワークモジュールで構成されている。 MoNetは、認知誘導型コントラスト損失関数を通じて固有のモジュラリティを活用し、タスクレベルの監督を必要とせずに、潜在空間におけるタスク固有の意思決定プロセスを効率的に学習する。 さらに,本手法では,センサモレータ性能のトレードオフを伴わずに,エンド・ツー・エンド推論の解釈可能性を高めるオンライン・ポスト・ホックな説明可能性アプローチを取り入れた。 現実世界の屋内環境では、MoNetは効果的な視覚自律ナビゲーションを示し、タスク特異性分析においてベースラインモデルを11%から47%上回る。 さらに、知覚の正当性マップと潜時決定ベクトルのポストホック解析により、ネットワークの解釈可能性について調べる。 これにより、ロボット学習の領域に説明可能な人工知能が組み込まれ、知覚的視点と行動的視点の両方を包含する。

We introduce MoNet, a novel method that combines end-to-end learning with modular network architectures for self-supervised and interpretable sensorimotor learning. MoNet is composed of three functionally distinct neural modules: Perception, Planning, and Control. Leveraging its inherent modularity through a cognition-guided contrastive loss function, MoNet efficiently learns task-specific decision-making processes in latent space, without requiring task-level supervision. Moreover, our method incorporates an online post-hoc explainability approach, which enhances the interpretability of the end-to-end inferences without a trade-off in sensorimotor performance. In real-world indoor environments, MoNet demonstrates effective visual autonomous navigation, surpassing baseline models by 11% to 47% in task specificity analysis. We further delve into the interpretability of our network through the post-hoc analysis of perceptual saliency maps and latent decision vectors. This offers insights into the incorporation of explainable artificial intelligence within the realm of robotic learning, encompassing both perceptual and behavioral perspectives.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-21
# 量子後暗号への移行フレームワーク:セキュリティ依存分析とケーススタディ

A Framework for Migrating to Post-Quantum Cryptography: Security Dependency Analysis and Case Studies ( http://arxiv.org/abs/2307.06520v2 )

ライセンス: Link先を確認
Khondokar Fida Hasan, Leonie Simpson, Mir Ali Rezazadeh Baee, Chadni Islam, Ziaur Rahman, Warren Armstrong, Praveen Gauravaram, Matthew McKague, (参考訳) 量子コンピューティングは、広く使われている暗号システムによって保護される情報に対する重要な脅威として浮上している。 暗号化手法は、かつて何十年にもわたって安全と考えられてきたが、今では危険にさらされており、世界中の企業間で機密データや通信のセキュリティに大きな脅威をもたらしている。 その結果、量子耐性暗号システムへの移行が急務となる。 これは簡単な作業ではありません。 量子セーフ状態への移行は複雑なプロセスであり、多くの組織では、ガイダンスなしで移行をナビゲートするための社内の専門知識が欠如している。 本稿では,この移行を支援するための包括的枠組みを提案する。 われわれのフレームワークは、暗号移行プロセスに関わる重要なステップを概説し、既存の組織在庫を活用している。 このフレームワークは、暗号化資産の効率的な識別を容易にし、他のエンタープライズフレームワークとスムーズに統合することができる。 本研究は,その実用性と有効性を明らかにするために,グラフ理論技術を用いて暗号依存の特定と評価を行うケーススタディを取り入れた。 これは、交換のための暗号システムの優先順位付けに有用である。

Quantum computing is emerging as a significant threat to information protected by widely used cryptographic systems. Cryptographic methods, once deemed secure for decades, are now at risk of being compromised, posing a massive threat to the security of sensitive data and communications across enterprises worldwide. As a result, there is an urgent need to migrate to quantum-resistant cryptographic systems. This is no simple task. Migrating to a quantum-safe state is a complex process, and many organisations lack the in-house expertise to navigate this transition without guidance. In this paper, we present a comprehensive framework designed to assist enterprises with this migration. Our framework outlines essential steps involved in the cryptographic migration process, and leverages existing organisational inventories. The framework facilitates the efficient identification of cryptographic assets and can be integrated with other enterprise frameworks smoothly. To underscore its practicality and effectiveness, we have incorporated case studies that utilise graph-theoretic techniques to pinpoint and assess cryptographic dependencies. This is useful in prioritising crypto-systems for replacement.
翻訳日:2024-03-25 23:38:50 公開日:2024-02-21
# 属性ベースの暗号化を用いたゼロ知識回避型クレデンシャル検証プロトコル

A Zero-Knowledge Revocable Credential Verification Protocol Using Attribute-Based Encryption ( http://arxiv.org/abs/2308.06797v3 )

ライセンス: Link先を確認
Giovanni Bartolomeo, (参考訳) 本稿では,Ciphertext-Policy Attribute-Based Encryptionを利用した認証プロトコルを提案する。 このプロトコルは、アキュムレータによる述語と取り消しの匿名の証明をサポートする。

We introduce a credential verification protocol leveraging on Ciphertext-Policy Attribute-Based Encryption. The protocol supports anonymous proof of predicates and revocation through accumulators.
翻訳日:2024-03-25 23:29:06 公開日:2024-02-21
# ファイルレスの暗号鍵攻撃のパルス:悪質なPowerShellスクリプト

The Pulse of Fileless Cryptojacking Attacks: Malicious PowerShell Scripts ( http://arxiv.org/abs/2401.07995v2 )

ライセンス: Link先を確認
Said Varlioglu, Nelly Elsayed, Eva Ruhsar Varlioglu, Murat Ozer, Zag ElSayed, (参考訳) ファイルレスマルウェアは、主にPowerShellスクリプトに依存しており、Windowsシステムのネイティブ機能を活用して、被害者のシステムに痕跡を残さないステルス攻撃を実行する。 ファイルレスメソッドの有効性は、攻撃が検出され、元の悪意のあるスクリプトが削除されたとしても、メモリ実行を通じて被害者のエンドポイントで動作し続ける能力にある。 特に2017年以降は、この技術を利用して暗号解読攻撃を行っている。 ユビキタスライブラリに新しいリモートコード実行(RCE)脆弱性が出現すると、広範囲にわたる暗号通貨マイニング攻撃が流行し、しばしばファイルレス技術を採用している。 本稿は、MITRE ATT&CKフレームワークに基づいて、一般的な悪意あるパターンを解読する、ファイルレス暗号ジャッキングのPowerShellスクリプトを包括的に分析する。

Fileless malware predominantly relies on PowerShell scripts, leveraging the native capabilities of Windows systems to execute stealthy attacks that leave no traces on the victim's system. The effectiveness of the fileless method lies in its ability to remain operational on victim endpoints through memory execution, even if the attacks are detected, and the original malicious scripts are removed. Threat actors have increasingly utilized this technique, particularly since 2017, to conduct cryptojacking attacks. With the emergence of new Remote Code Execution (RCE) vulnerabilities in ubiquitous libraries, widespread cryptocurrency mining attacks have become prevalent, often employing fileless techniques. This paper provides a comprehensive analysis of PowerShell scripts of fileless cryptojacking, dissecting the common malicious patterns based on the MITRE ATT&CK framework.
翻訳日:2024-03-25 12:37:32 公開日:2024-02-21
# 没入型インタラクティブバーチャルリアリティにおけるプライバシ保護ゲイズデータストリーミング:ロバストさとユーザエクスペリエンス

Privacy-Preserving Gaze Data Streaming in Immersive Interactive Virtual Reality: Robustness and User Experience ( http://arxiv.org/abs/2402.07687v2 )

ライセンス: Link先を確認
Ethan Wilson, Azim Ibragimov, Michael J. Proulx, Sai Deep Tetali, Kevin Butler, Eakta Jain, (参考訳) 視線追跡は常に仮想現実(VR)システムに組み込まれている。 以前の研究では、眼球追跡データが露出すれば、再識別攻撃に使用できることが示されている。 現在存在するプライバシーメカニズムに関する私たちの知識は、予測エラーやブラックボックス脅威モデルといったユーティリティのデータ中心のメトリクスに基づいて、プライバシユーティリティのトレードオフ曲線に限られています。 本稿では,対話型VRアプリケーションにおいて,ユーザ中心のユーティリティの概念と,さまざまな脅威モデルを検討することが重要であることを提案する。 我々は,主観的ユーザエクスペリエンスとタスクパフォーマンス指標を含む対話型VRアプリケーションにおけるリアルタイムプライバシメカニズムを評価する手法を開発した。 本手法を用いて選択されたプライバシ機構を評価し,高いユーザビリティスコアと合理的なタスク性能を維持しつつ,再識別精度を14%以下に抑えることができることを確認した。 最後に,3つの脅威シナリオ(ブラックボックス,ファミコン付きブラックボックス,ホワイトボックス)を解明し,異なるプライバシメカニズムがこれらのシナリオにどの程度うまく対応しているかを評価する。 この研究は、再識別攻撃のリスクと潜在的な緩和ソリューションをエンドツーエンドで評価するための方法論を提供することで、VRプライバシの最先端を推し進める。

Eye tracking is routinely being incorporated into virtual reality (VR) systems. Prior research has shown that eye tracking data, if exposed, can be used for re-identification attacks. The state of our knowledge about currently existing privacy mechanisms is limited to privacy-utility trade-off curves based on data-centric metrics of utility, such as prediction error, and black-box threat models. We propose that for interactive VR applications, it is essential to consider user-centric notions of utility and a variety of threat models. We develop a methodology to evaluate real-time privacy mechanisms for interactive VR applications that incorporate subjective user experience and task performance metrics. We evaluate selected privacy mechanisms using this methodology and find that re-identification accuracy can be decreased to as low as 14% while maintaining a high usability score and reasonable task performance. Finally, we elucidate three threat scenarios (black-box, black-box with exemplars, and white-box) and assess how well the different privacy mechanisms hold up to these adversarial scenarios. This work advances the state of the art in VR privacy by providing a methodology for end-to-end assessment of the risk of re-identification attacks and potential mitigating solutions.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-21
# Robust-Wide: インストラクション駆動画像編集に対するロバストなウォーターマーキング

Robust-Wide: Robust Watermarking against Instruction-driven Image Editing ( http://arxiv.org/abs/2402.12688v2 )

ライセンス: Link先を確認
Runyi Hu, Jie Zhang, Ting Xu, Tianwei Zhang, Jiwei Li, (参考訳) インストラクション駆動の画像編集により、ユーザはフォワードパスでテキスト命令に従って画像を素早く編集できる。 それでも悪意のあるユーザーは、この技術を利用して偽画像を作成することができるため、信頼の危機を招き、元の画像所有者の権利を損なう可能性がある。 ウォーターマーキングはこのような悪意のある行動を追跡する一般的な方法である。 残念ながら、命令駆動の画像編集は、意味レベルでウォーターマークされた画像を著しく変更することができ、より堅牢で効果的である。 本稿では,命令駆動画像編集に対する最初の堅牢な透かし手法であるRobust-Wideを提案する。 具体的には、透かしの埋め込みと抽出に広く使われているエンコーダデコーダフレームワークを採用する。 意味歪みに対するロバスト性を実現するために,多種多様なインジェクションインジェクションと,異なる意味レベルにおける画像の実質的な修正を含む,新しい部分命令駆動型Denoising Smpling Guidance (PIDSG) モジュールを導入する。 PIDSGでは、エンコーダはより堅牢でセマンティックな領域に透かしを埋め込む傾向がある。 実験により、ロバスト・ウェイドは64ビットの透かしメッセージに対して2.6%の低ビット誤り率で編集画像から透かしを効果的に抽出できることが示されている。 一方、オリジナル画像の視覚的品質と編集性には無視可能な影響しか生じない。 さらに、Robust-Wideは、異なるサンプリング構成や、ControlNet-InstructPix2Pix、MagicBrush、Inpainting、DDIM Inversionといった他の画像編集方法に対して、一般的な堅牢性を持っている。

Instruction-driven image editing allows users to quickly edit an image according to text instructions in a forward pass. Nevertheless, malicious users can easily exploit this technique to create fake images, which could cause a crisis of trust and harm the rights of the original image owners. Watermarking is a common solution to trace such malicious behavior. Unfortunately, instruction-driven image editing can significantly change the watermarked image at the semantic level, making it less robust and effective. We propose Robust-Wide, the first robust watermarking methodology against instruction-driven image editing. Specifically, we adopt the widely-used encoder-decoder framework for watermark embedding and extraction. To achieve robustness against semantic distortions, we introduce a novel Partial Instruction-driven Denoising Sampling Guidance (PIDSG) module, which consists of a large variety of instruction injections and substantial modifications of images at different semantic levels. With PIDSG, the encoder tends to embed the watermark into more robust and semantic-aware areas, which remains in existence even after severe image editing. Experiments demonstrate that Robust-Wide can effectively extract the watermark from the edited image with a low bit error rate of nearly 2.6% for 64-bit watermark messages. Meanwhile, it only induces a neglectable influence on the visual quality and editability of the original images. Moreover, Robust-Wide holds general robustness against different sampling configurations and other image editing methods such as ControlNet-InstructPix2Pix, MagicBrush, Inpainting and DDIM Inversion.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-21
# セキュアな物理層通信のための生成AI:サーベイ

Generative AI for Secure Physical Layer Communications: A Survey ( http://arxiv.org/abs/2402.13553v1 )

ライセンス: Link先を確認
Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Dong In Kim, Xuemin, Shen, Khaled B. Letaief, (参考訳) Generative Artificial Intelligence(GAI)は、AIイノベーションの最前線に立ち、多様なコンテンツを生成するための急速な進歩と非並行的な能力を示す。 コンテンツ作成以外にも、GAIは複雑なデータ配布を学習する重要な分析能力を持ち、セキュリティ問題を解決する多くの機会を提供する。 物理層の観点からのセキュリティの領域では、従来のAIアプローチは、送信チャネルの進化する物理的特性と、現代のサイバー脅威の複雑さを動的に調整する能力に制限があるため、しばしば苦労する。 この適応性と分析的な深さは、GAIが優れている場所である。 そこで本稿では,通信ネットワークの物理層におけるセキュリティ向上におけるGAIの多様な応用について,広範な調査を行う。 本稿ではまず,GAN(Generative Adversarial Networks),オートエンコーダ(AE),変分オートエンコーダ(VAE),拡散モデル(DM)など,この分野における高度なGAIモデルの重要性を強調した。 私たちは、物理的レイヤセキュリティの課題に対処する上で、GAIの役割を掘り下げ、通信の機密性、認証、可用性、レジリエンス、整合性に重点を置いています。 さらに,モデルの改良,マルチシナリオ展開,リソース効率の最適化,セキュアなセマンティックコミュニケーションなどに焦点を当てた今後の研究方向性を示す。

Generative Artificial Intelligence (GAI) stands at the forefront of AI innovation, demonstrating rapid advancement and unparalleled proficiency in generating diverse content. Beyond content creation, GAI has significant analytical abilities to learn complex data distribution, offering numerous opportunities to resolve security issues. In the realm of security from physical layer perspectives, traditional AI approaches frequently struggle, primarily due to their limited capacity to dynamically adjust to the evolving physical attributes of transmission channels and the complexity of contemporary cyber threats. This adaptability and analytical depth are precisely where GAI excels. Therefore, in this paper, we offer an extensive survey on the various applications of GAI in enhancing security within the physical layer of communication networks. We first emphasize the importance of advanced GAI models in this area, including Generative Adversarial Networks (GANs), Autoencoders (AEs), Variational Autoencoders (VAEs), and Diffusion Models (DMs). We delve into the roles of GAI in addressing challenges of physical layer security, focusing on communication confidentiality, authentication, availability, resilience, and integrity. Furthermore, we also present future research directions focusing model improvements, multi-scenario deployment, resource-efficient optimization, and secure semantic communication, highlighting the multifaceted potential of GAI to address emerging challenges in secure physical layer communications and sensing.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-21
# JPEGステガナリシスのための非互換ブロックの探索

Finding Incompatibles Blocks for Reliable JPEG Steganalysis ( http://arxiv.org/abs/2402.13660v1 )

ライセンス: Link先を確認
Etienne Levecque, Jan Butora, Patrick Bas, (参考訳) 本稿では、100の画質係数に対する非互換JPEG画像の洗練された概念を提示する。 DCT係数に埋め込まれたステガノグラフィースキームの存在を検出するために使用できる。 JPEGパイプライン内では、DCT変換と量子化関数の組み合わせにより、画素領域内の複数の異なるブロックをDCT領域内の同じブロックにマッピングできることを示す。 しかし、すべてのDCTブロックが取得できるわけではない。 特に、DCT係数を手動で修正してメッセージを埋め込むと、非互換性が発生する。 互換性のないブロックと非互換性なブロックを区別する問題は、解決策の有無に関わらず逆問題であり、それを解決するための2つの方法を提案する。 1つはヒューリスティックベースで、もし存在するなら解を見つけるのが早い。 2つ目は整数線形計画問題として定式化され、特定のDCT変換に対してのみ適切な時間で非互換なブロックを検出できる。 ブロックが非互換になる確率は、修正の数にのみ依存することを示す。 最後に、ヒューリスティックアルゴリズムを用いて、ステガナリシスを実行するために、画像毎の互換ブロックの数に応じて、Likelihood Ratio Testを導出できる。 このテストの結果をシミュレートし、256x256画像のブロックの10%しか使用せず、0.001bppから0.01bppのペイロードに対してディープラーニング検出器e-SRNetよりも優れていることを示す。 Selection-Channel-Awareバージョンのテストはさらに強力で、ブロックの1%しか使用せず、e-SRNetを上回っている。

This article presents a refined notion of incompatible JPEG images for a quality factor of 100. It can be used to detect the presence of steganographic schemes embedding in DCT coefficients. We show that, within the JPEG pipeline, the combination of the DCT transform with the quantization function can map several distinct blocks in the pixel domain to the same block in the DCT domain. However, not every DCT block can be obtained: we call those blocks incompatible. In particular, incompatibility can happen when DCT coefficients are manually modified to embed a message. We show that the problem of distinguishing compatible blocks from incompatible ones is an inverse problem with or without solution and we propose two different methods to solve it. The first one is heuristic-based, fast to find a solution if it exists. The second is formulated as an Integer Linear Programming problem and can detect incompatible blocks only for a specific DCT transform in a reasonable amount of time. We show that the probability for a block to become incompatible only relies on the number of modifications. Finally, using the heuristic algorithm we can derive a Likelihood Ratio Test depending on the number of compatible blocks per image to perform steganalysis. We simulate the result of this test and show that it outperforms a deep learning detector e-SRNet for every payload between 0.001 and 0.01 bpp by using only 10% of the blocks from 256x256 images. A Selection-Channel-Aware version of the test is even more powerful and outperforms e-SRNet while using only 1% of the blocks.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# 不均一なデジタル証拠の相互運用を許容する統一知識グラフ

A Unified Knowledge Graph to Permit Interoperability of Heterogeneous Digital Evidence ( http://arxiv.org/abs/2402.13746v1 )

ライセンス: Link先を確認
Ali Alshumrani, Nathan Clarke, Bogdan Ghita, (参考訳) 現代のデジタル世界は非常に異質であり、様々なコミュニケーション、デバイス、サービスを含んでいる。 この相互接続性は、デジタル情報を多次元で複雑な形式で生成し、同期し、保存し、提示する。 誤用と関連付けると、このデジタル情報は重要なデジタル証拠となる。 これらの多様な形式を統一システムに統合し調和させることは、証拠とその関係を包括的に理解するために重要である。 しかし、これまでのアプローチでは、調査員が大規模なデータセットにまたがる異質な証拠を問い合わせる能力を制限するという課題に直面している。 本稿では,現代統一データグラフの形での新しいアプローチを提案する。 提案手法は,エビデンスデータのシームレスな統合,調和,統一化,クロスプラットフォーム相互運用性の実現,効率的なデータクエリの実現,ディジタル調査性能の向上を目標とする。 その効果を実証するために,提案手法の利点を強調し,デジタル調査における高度な分析に必要な相互運用性を実現する上での有効性を示す事例研究を行った。

The modern digital world is highly heterogeneous, encompassing a wide variety of communications, devices, and services. This interconnectedness generates, synchronises, stores, and presents digital information in multidimensional, complex formats, often fragmented across multiple sources. When linked to misuse, this digital information becomes vital digital evidence. Integrating and harmonising these diverse formats into a unified system is crucial for comprehensively understanding evidence and its relationships. However, existing approaches to date have faced challenges limiting investigators' ability to query heterogeneous evidence across large datasets. This paper presents a novel approach in the form of a modern unified data graph. The proposed approach aims to seamlessly integrate, harmonise, and unify evidence data, enabling cross-platform interoperability, efficient data queries, and improved digital investigation performance. To demonstrate its efficacy, a case study is conducted, highlighting the benefits of the proposed approach and showcasing its effectiveness in enabling the interoperability required for advanced analytics in digital investigations.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# 再構成可能なインテリジェント表面を用いた空間領域無線ジャミング

Spatial-Domain Wireless Jamming with Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2402.13773v1 )

ライセンス: Link先を確認
Philipp Mackensen, Paul Staat, Stefan Roth, Aydin Sezgin, Christof Paar, Veelasha Moonsamy, (参考訳) 今日、我々は無線通信システムの定常的利用に大きく依存している。 攻撃者は、望まれる信号を覆い隠すために故意に無線干渉を発生させ、サービス停止につながる。 無線信号伝搬の放送特性は、そもそもそのような攻撃を可能にするが、攻撃者にも同様に挑戦し、単一のデバイスを正確に標的にしない。 特に、妨害信号は被害者の受信機だけでなく、近隣のデバイスにも届く可能性が高い。 本研究では、無線ジャミング信号の空間的制御を導入し、ジャミング攻撃に利用するための新たな自由度を与える。 我々の新しい戦略は、環境適応型再構成可能なインテリジェントサーフェス(RIS)を採用し、特定の犠牲者デバイスに空間的にジャミング信号に焦点を合わせるためにマルチパス信号伝搬を利用する。 この効果を広範囲にわたる実験により検討し, 周辺機器に影響を与えないまま, 被害者端末の無線通信を無効化できることを示す。 特に、Wi-Fi機器の完全拒否を実証する一方、距離5mm近い第2のデバイスは影響を受けず、60Mbit/sのデータレートで無線通信を継続する。 また,攻撃者が攻撃対象をオンザフライで変更し,妨害対象のデバイスを動的に選択できることも示す。

Today, we rely heavily on the constant availability of wireless communication systems. As a result, wireless jamming continues to prevail as an imminent threat: Attackers can create deliberate radio interference to overshadow desired signals, leading to denial of service. Although the broadcast nature of radio signal propagation makes such an attack possible in the first place, it likewise poses a challenge for the attacker, preventing precise targeting of single devices. In particular, the jamming signal will likely not only reach the victim receiver but also other neighboring devices. In this work, we introduce spatial control of wireless jamming signals, granting a new degree of freedom to leverage for jamming attacks. Our novel strategy employs an environment-adaptive reconfigurable intelligent surface (RIS), exploiting multipath signal propagation to spatially focus jamming signals on particular victim devices. We investigate this effect through extensive experimentation and show that our approach can disable the wireless communication of a victim device while leaving neighbouring devices unaffected. In particular, we demonstrate complete denial-of-service of a Wi-Fi device while a second device located at a distance as close as 5 mm remains unaffected, sustaining wireless communication at a data rate of 60 Mbit/s. We also show that the attacker can change the attack target on-the-fly, dynamically selecting the device to be jammed.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# サイバーセキュリティ・アズ・ア・サービス

Cybersecurity as a Service ( http://arxiv.org/abs/2402.13965v1 )

ライセンス: Link先を確認
John Morris, Stefan Tatschner, Michael P. Heinl, Patrizia Heinl, Thomas Newe, Sven Plaga, (参考訳) 高度化とサイバー攻撃の増加に伴い、ますます多くの企業がサイバーセキュリティの姿勢を強化する必要があるという結論に達した。 同時に、高度に教育された情報技術(IT)のセキュリティ担当者は少ない。 サイバーセキュリティ・アズ・ア・サービス(CSaaS)は、セキュリティ機能を管理セキュリティサービスプロバイダ(MSSP)にアウトソーシングすることで、この問題に対処する1つの可能なソリューションである。 この章では、一般的なCSaaS機能とそのプロバイダの概要を紹介します。 また、特に中小企業に対して、特定のMSSPの選択に関して適切な質問を行うためのガイダンスを提供する。

With the increasing sophistication and sheer number of cyberattacks, more and more companies come to the conclusion that they have to strengthen their cybersecurity posture. At the same time, well-educated Information technology (IT) security personnel are scarce. Cybersecurity as a service (CSaaS) is one possible solution to tackle this problem by outsourcing security functions to managed security service providers (MSSP). This chapter gives an overview of common CSaaS functions and their providers. Moreover, it provides guidance especially for small- and medium-sized businesses, for asking the appropriate questions when it comes to the selection of a specific MSSP.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# Fake Resume攻撃: オンラインジョブプラットフォーム上でのデータポリシ

Fake Resume Attacks: Data Poisoning on Online Job Platforms ( http://arxiv.org/abs/2402.14124v1 )

ライセンス: Link先を確認
Michiharu Yamashita, Thanh Tran, Dongwon Lee, (参考訳) 最近の調査では、多くのWebサービスでデータ中毒攻撃によって引き起こされたさまざまな脆弱性が明らかにされているが、オンラインのプロフェッショナルな仕事プラットフォーム(例えば、LinkedInやIndentual)の脆弱性についてはほとんど知られていない。 本研究は,オンライン求人プラットフォーム上での求人者と企業をマッチングする共通人事(HR)タスクにおいて,まず重要な脆弱性を実証するものである。 対象企業の推薦可能性を高めるための企業促進攻撃、推奨企業の推薦可能性を減らすための企業脱落攻撃、特定企業との適合可能性を高めるためのユーザ促進攻撃の3つの攻撃シナリオを示す。 この目的のために、我々は、データ中毒による系統的な予測エラーを誘発するFRANCISというエンドツーエンドの「フェイク履歴」生成フレームワークを開発した。 実世界のデータセットに対する実証的な評価によると、データ中毒攻撃は、基礎となるモデルに関係なく、求職者と企業間のマッチングの結果を著しく損なう可能性があり、その脆弱性は中毒の強度に比例して増幅されている。 これらの結果は、ジョブプラットフォームからのさまざまなサービスのアウトプットが悪意のあるユーザによってハックされる可能性があることを示唆している。

While recent studies have exposed various vulnerabilities incurred from data poisoning attacks in many web services, little is known about the vulnerability on online professional job platforms (e.g., LinkedIn and Indeed). In this work, first time, we demonstrate the critical vulnerabilities found in the common Human Resources (HR) task of matching job seekers and companies on online job platforms. Capitalizing on the unrestricted format and contents of job seekers' resumes and easy creation of accounts on job platforms, we demonstrate three attack scenarios: (1) company promotion attack to increase the likelihood of target companies being recommended, (2) company demotion attack to decrease the likelihood of target companies being recommended, and (3) user promotion attack to increase the likelihood of certain users being matched to certain companies. To this end, we develop an end-to-end "fake resume" generation framework, titled FRANCIS, that induces systematic prediction errors via data poisoning. Our empirical evaluation on real-world datasets reveals that data poisoning attacks can markedly skew the results of matchmaking between job seekers and companies, regardless of underlying models, with vulnerability amplified in proportion to poisoning intensity. These findings suggest that the outputs of various services from job platforms can be potentially hacked by malicious users.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# QuantTM:リスク管理とサイバーレジリエンスのためのビジネス中心の脅威定量化

QuantTM: Business-Centric Threat Quantification for Risk Management and Cyber Resilience ( http://arxiv.org/abs/2402.14140v1 )

ライセンス: Link先を確認
Jan von der Assen, Muriel F. Franco, Muyao Dong, Burkhard Stiller, (参考訳) 脅威モデリングは、企業内の関連する脅威を理解するための重要なプロセスとして登場した。 しかし、脅威イベントの重要性を理解することは、システムを統合するビジネスによって駆動されることはめったにない。 さらに、脅威事象の優先順位付けは抽象的および定性的なスコアに基づいて行われることが多い。 このようなスコアは優先順位付けを可能にするが、結果が意思決定者によって容易に解釈されることは許さない。 これは、セキュリティ投資やセキュリティ管理の経済的適用性について議論するなど、下流活動を妨げる可能性がある。 本稿では、脅威モデリングプロセス中に脅威情報を収集し、特定の脅威イベントによって引き起こされる潜在的金融損失を測定するための、運用および戦略的なビジネス代表者の見解を取り入れたアプローチであるQuantTMを紹介する。 これは、脅威の影響の分析とセキュリティ制御の適用性を強化し、経済的な観点から脅威分析と優先順位付けを支援する。 QuantTMは、データ収集と集約のための包括的なプロセスと、ビジネスインパクト分析のための方法から構成される。 QuantTMアプローチの性能と実現性は、スイスの中小企業で行われた実世界のケーススタディで実証され、脅威の影響とセキュリティコントロールの経済的利益を分析する。 第2に,ビジネスインパクト分析の導入が実現可能であり,支援プロトタイプのユーザビリティが極めて高いことを示す。

Threat modeling has emerged as a key process for understanding relevant threats within businesses. However, understanding the importance of threat events is rarely driven by the business incorporating the system. Furthermore, prioritization of threat events often occurs based on abstract and qualitative scoring. While such scores enable prioritization, they do not allow the results to be easily interpreted by decision-makers. This can hinder downstream activities, such as discussing security investments and a security control's economic applicability. This article introduces QuantTM, an approach that incorporates views from operational and strategic business representatives to collect threat information during the threat modeling process to measure potential financial loss incurred by a specific threat event. It empowers the analysis of threats' impacts and the applicability of security controls, thus supporting the threat analysis and prioritization from an economic perspective. QuantTM comprises an overarching process for data collection and aggregation and a method for business impact analysis. The performance and feasibility of the QuantTM approach are demonstrated in a real-world case study conducted in a Swiss SME to analyze the impacts of threats and economic benefits of security controls. Secondly, it is shown that employing business impact analysis is feasible and that the supporting prototype exhibits great usability.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# ModSRAM:SRAMにおける大規模モジュール乗算のためのアルゴリズムハードウェアの共同設計

ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM ( http://arxiv.org/abs/2402.14152v1 )

ライセンス: Link先を確認
Jonathan Ku, Junyao Zhang, Haoxuan Shan, Saichand Samudrala, Jiawen Wu, Qilin Zheng, Ziru Li, JV Rajendran, Yiran Chen, (参考訳) 楕円曲線暗号(ECC)は、公開鍵暗号(PKC)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。 ECCはモジュラー演算で構成されており、モジュラー乗算は処理時間の大部分を消費する。 ECCの計算複雑性とメモリ制限により、性能が制限される。 したがって、ECCのハードウェアアクセラレーションは研究の活発な分野である。 PIM(Processing-in-Memory)は、この問題に対処するための有望なアプローチである。 本研究では, 8T SRAM PIM アーキテクチャである ModSRAM を設計し, 大規模なモジュラ乗算を効率的に計算する。 さらに、インターリーブされたアルゴリズムのサイクルを減らし、ルックアップテーブル(LUT)に基づいた加算のための搬送伝搬を排除する新しいアルゴリズムR4CSA-LUTを提案する。 ModSRAMはR4CSA-LUTと共同で設計され、メモリ上のモジュラ乗算とデータ再利用をサポートする。

Elliptic curve cryptography (ECC) is widely used in security applications such as public key cryptography (PKC) and zero-knowledge proofs (ZKP). ECC is composed of modular arithmetic, where modular multiplication takes most of the processing time. Computational complexity and memory constraints of ECC limit the performance. Therefore, hardware acceleration on ECC is an active field of research. Processing-in-memory (PIM) is a promising approach to tackle this problem. In this work, we design ModSRAM, the first 8T SRAM PIM architecture to compute large-number modular multiplication efficiently. In addition, we propose R4CSA-LUT, a new algorithm that reduces the cycles for an interleaved algorithm and eliminates carry propagation for addition based on look-up tables (LUT). ModSRAM is co-designed with R4CSA-LUT to support modular multiplication and data reuse in memory with 52% cycle reduction compared to prior works with only 32% area overhead.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# 低コストジャミングにおけるハーモニックの使用

Using Harmonics for Low-Cost Jamming ( http://arxiv.org/abs/2402.14869v1 )

ライセンス: Link先を確認
Vasilis Ieropoulos, Eirini Anthi, (参考訳) 現代の教育システムのデジタル化により、複数の学校や組織が同様のハードウェアを購入している。 ワイヤレスマイク、プロジェクター、タッチスクリーンディスプレイなどの電子機器は、市場をリードする有名ブランドによってほぼ標準化されている。 これにより、600-670MHzの周波数帯を持つブランド間で共通の周波数帯が採用されることになった。 多くのアプリケーションで使われているRaspberry Piのような低価格のコンピューティングデバイスの人気も、低コストの送信機として使われる道を歩んでいる。 Raspberry Piがターゲットデバイスとして使用されている実装は数多くあるが、PIが実際の脅威であるケースはほとんどない。 本稿では,Raspberry Piを無線会議マイクを無効化するためのステルス無線周波数ジャミングデバイスとしての利用について検討する。 ハーモニックは、フィルタされていない伝送の利点を生かして、Piの伝送周波数以外の周波数を達成するために使用された。

The digitalisation of the modern schooling system has led to multiple schools and organisations buying similar hardware. Electronic equipment like wireless microphones, projectors, touchscreen displays etc., have been almost standardised with a few well-known brands leading the market. This has led to the adoption of common frequency ranges between brands with many sticking between 600-670 MHz. The popularity of low-cost computing devices like the Raspberry Pi which has been used in a plethora of applications has also taken the path of being used as low-cost transmitters. There have been many implementations where the Raspberry Pi has been used as the target device but few cases where the PI is the actual threat. In this paper, we explore the use of the Raspberry Pi as a stealth radio frequency jamming device to disable wireless conference microphones. Harmonics were used to achieve frequencies outside the Pi's transmission frequency by taking advantage of its unfiltered transmission.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-21
# 食事パターンを解釈可能なオピオイドマウス検出のための新しい枠組み

Diet-ODIN: A Novel Framework for Opioid Misuse Detection with Interpretable Dietary Patterns ( http://arxiv.org/abs/2403.08820v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Zehong Wang, Shifu Hou, Evan Hall, Landon Bachman, Vincent Galassi, Jasmine White, Nitesh V. Chawla, Chuxu Zhang, Yanfang Ye, (参考訳) オピオイド危機はアメリカで最も重要な社会問題の一つである。 薬物補助療法(MAT)はオピオイドの誤用や依存症に対して最も効果的な治療法とされているが、様々な副作用がオピオイドの再発を引き起こす可能性がある。 MATに加えて、栄養介入はオピオイドの誤用防止と回復において重要であることが証明されている。 しかし, 食生活パターンとオピオイド誤用との関連性は未解明のままである。 そこで本研究では,まず,オピオイド使用者に関連する大規模多面的食事ベンチマークデータセットを構築し,その上で,解釈可能な食事パターンを用いたオピオイドミスス検出(Opioid Misuse Detection with Interpretable Dietary Patterns, Diet-ODIN)を開発し,オピオイド使用者識別のためのヘテロジニアスグラフ(HG)と大規模言語モデル(LLM)を橋渡しする。 具体的には,Die-ODINにおいて,まず食事情報と健康情報の両方を包括的に統合するHGを構築し,その後,ユーザの食習慣とオピオイド誤用を検知するための共有食パターンをフルに活用するために,ノイズを低減した総合的なグラフ学習フレームワークを考案した。 食事パターンとオピオイド誤用との複雑な相関関係を更に掘り下げるために,グラフ学習モデルから得られた知識を活用してLLMを利用する。 その結果,オピオイド誤用と食生活パターンの複雑な相互作用の解明におけるダイエット-ODINの卓越した性能を,現状のベースライン法と比較して検証した。

The opioid crisis has been one of the most critical society concerns in the United States. Although the medication assisted treatment (MAT) is recognized as the most effective treatment for opioid misuse and addiction, the various side effects can trigger opioid relapse. In addition to MAT, the dietary nutrition intervention has been demonstrated its importance in opioid misuse prevention and recovery. However, research on the alarming connections between dietary patterns and opioid misuse remain under-explored. In response to this gap, in this paper, we first establish a large-scale multifaceted dietary benchmark dataset related to opioid users at the first attempt and then develop a novel framework - i.e., namely Opioid Misuse Detection with Interpretable Dietary Patterns (Diet-ODIN) - to bridge heterogeneous graph (HG) and large language model (LLM) for the identification of users with opioid misuse and the interpretation of their associated dietary patterns. Specifically, in Diet-ODIN, we first construct an HG to comprehensively incorporate both dietary and health-related information, and then we devise a holistic graph learning framework with noise reduction to fully capitalize both users' individual dietary habits and shared dietary patterns for the detection of users with opioid misuse. To further delve into the intricate correlations between dietary patterns and opioid misuse, we exploit an LLM by utilizing the knowledge obtained from the graph learning model for interpretation. The extensive experimental results based on our established benchmark with quantitative and qualitative measures demonstrate the outstanding performance of Diet-ODIN in exploring the complex interplay between opioid misuse and dietary patterns, by comparison with state-of-the-art baseline methods.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-21
# DREsS:EFLライティングに基づくルーブリックベースエッセイスコーリング用データセット

DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing ( http://arxiv.org/abs/2402.16733v1 )

ライセンス: Link先を確認
Haneul Yoo, Jieun Han, So-Yeon Ahn, Alice Oh(参考訳) 自動エッセイスコアリング(automated essay scoring, aes)は、英語で外国語(efl)を書くための有用なツールであり、学生やインストラクターにリアルタイムエッセイスコアを提供する。 しかしながら、以前のAESモデルは、EFLの実践的なシナリオとは無関係にエッセイやスコアに基づいて訓練され、通常、適切なデータセットがないため、単一の総合的なスコアを提供した。 本稿では,ブルリック自動エッセイ評価のための大規模標準データセットであるDREsSをリリースする。 DREsSは、DREsS_New、DREsS_Stdの3つのサブデータセットからなる。 とdresss_caseだ。 DREsS_Newは、EFLの学生が執筆し、英語教育の専門家が採点した1.7Kのエッセイを含む、実際のクラスルームデータセットである。 また、既存のルーリックベースのエッセイ評価データセットをDREsS_Stdとして標準化する。 我々は,DREsS_CASEの20Kの合成サンプルを生成し,基準値を45.44%改善するエッセイの汚職ベースの強化戦略であるCASEを提案する。 DREsSは、EFL書記教育のためのより正確で実用的なAESシステムを提供するためのさらなる研究を可能にする。

Automated essay scoring (AES) is a useful tool in English as a Foreign Language (EFL) writing education, offering real-time essay scores for students and instructors. However, previous AES models were trained on essays and scores irrelevant to the practical scenarios of EFL writing education and usually provided a single holistic score due to the lack of appropriate datasets. In this paper, we release DREsS, a large-scale, standard dataset for rubric-based automated essay scoring. DREsS comprises three sub-datasets: DREsS_New, DREsS_Std., and DREsS_CASE. We collect DREsS_New, a real-classroom dataset with 1.7K essays authored by EFL undergraduate students and scored by English education experts. We also standardize existing rubric-based essay scoring datasets as DREsS_Std. We suggest CASE, a corruption-based augmentation strategy for essays, which generates 20K synthetic samples of DREsS_CASE and improves the baseline results by 45.44%. DREsS will enable further research to provide a more accurate and practical AES system for EFL writing education.
翻訳日:2024-03-03 19:20:38 公開日:2024-02-21
# 大規模言語モデル開発の背景にあるデータセットの実践者を理解する

Understanding the Dataset Practitioners Behind Large Language Model Development ( http://arxiv.org/abs/2402.16611v1 )

ライセンス: Link先を確認
Crystal Qian, Emily Reif, Minsuk Kahng(参考訳) 大規模言語モデル(LLM)がより高度で影響力のあるものになるにつれて、彼らが依存し、生成するデータを精査することがますます重要である。 この仕事をしているデータセットの実践者は何でしょう? まず、GoogleのLLM開発に貢献するチームの責任について、振り返り分析を行うことで、“データセットの実践者”の役割を定義します。 そして,これらの実践者の断面(N=10)で半構造化インタビューを行う。 データ品質が最優先事項であることに気付きました。 データ品質を評価するために、実践者は自身の直感に頼るか、独自の評価ロジックを書く。 品質とそれを評価する方法について、実践者間で合意が欠如している。 この現象の潜在的な理由と調整の機会について論じる。

As large language models (LLMs) become more advanced and impactful, it is increasingly important to scrutinize the data that they rely upon and produce. What is it to be a dataset practitioner doing this work? We approach this in two parts: first, we define the role of "dataset practitioner" by performing a retrospective analysis on the responsibilities of teams contributing to LLM development at Google. Then, we conduct semi-structured interviews with a cross-section of these practitioners (N=10). We find that data quality is the top priority. To evaluate data quality, practitioners either rely on their own intuition or write custom evaluation logic. There is a lack of consensus across practitioners on what quality is and how to evaluate it. We discuss potential reasons for this phenomenon and opportunities for alignment.
翻訳日:2024-03-03 19:20:15 公開日:2024-02-21
# pca-bench:知覚認知行動連鎖におけるマルチモーダル大言語モデルの評価

PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain ( http://arxiv.org/abs/2402.15527v1 )

ライセンス: Link先を確認
Liang Chen and Yichi Zhang and Shuhuai Ren and Haozhe Zhao and Zefan Cai and Yuchi Wang and Peiyi Wang and Xiangdi Meng and Tianyu Liu and Baobao Chang(参考訳) MLLM(Multimodal Large Language Models)の統合能力を評価するためのマルチモーダル意思決定ベンチマークであるPCA-Benchを提案する。 pca-benchは、単純なタスクと個々のモデル能力に焦点を当てた以前のベンチマークから離れて、自動運転、国内ロボット工学、オープンワールドゲームという3つの複雑なシナリオを紹介している。 タスク命令と多様なコンテキストを与えられたモデルでは、正確な決定を行うために、知覚、認知、行動の複数の機能をシームレスに統合する必要がある。 さらに、PCA-Benchは、認識、知識、推論などの領域におけるモデル不正確性を精査するエラーローカライゼーション機能を備えている。 これにより、MLLMのデプロイの信頼性が向上する。 評価の精度と効率のバランスをとるために, 自動評価プロトコル pca-eval を提案し, 10 mllm の評価を行う。 この結果から、オープンソースモデルとgpt-4 visionのような強力なプロプライエタリモデル間のパフォーマンスの差が明らかになる。 そこで本稿では,マルチモーダルな環境下での指導指導例の自動合成フレームワークであるEmbodied-Instruction-Evolution(EIE)を紹介する。 EIEは、PCA-Benchで7,510のトレーニング例を生成し、GPT-4 Vision(+3\%)を超えるオープンソースのMLLMの性能を高め、EIEの有効性を検証する。 GPT4-Visionのような頑健なMLLMは、組込み剤の意思決定を約束し、MLLM研究のための新たな道を開くことを示唆している。

We present PCA-Bench, a multimodal decision-making benchmark for evaluating the integrated capabilities of Multimodal Large Language Models (MLLMs). Departing from previous benchmarks focusing on simplistic tasks and individual model capability, PCA-Bench introduces three complex scenarios: autonomous driving, domestic robotics, and open-world games. Given task instructions and diverse contexts, the model is required to seamlessly integrate multiple capabilities of Perception, Cognition, and Action in a reasoning chain to make accurate decisions. Moreover, PCA-Bench features error localization capabilities, scrutinizing model inaccuracies in areas such as perception, knowledge, or reasoning. This enhances the reliability of deploying MLLMs. To balance accuracy and efficiency in evaluation, we propose PCA-Eval, an automatic evaluation protocol, and assess 10 prevalent MLLMs. The results reveal significant performance disparities between open-source models and powerful proprietary models like GPT-4 Vision. To address this, we introduce Embodied-Instruction-Evolution (EIE), an automatic framework for synthesizing instruction tuning examples in multimodal embodied environments. EIE generates 7,510 training examples in PCA-Bench and enhances the performance of open-source MLLMs, occasionally surpassing GPT-4 Vision (+3\% in decision accuracy), thereby validating the effectiveness of EIE. Our findings suggest that robust MLLMs like GPT4-Vision show promise for decision-making in embodied agents, opening new avenues for MLLM research.
翻訳日:2024-03-03 19:19:33 公開日:2024-02-21
# ヒューマンモーション予測のためのコンテキストベース解釈可能な時空間グラフ畳み込みネットワーク

Context-based Interpretable Spatio-Temporal Graph Convolutional Network for Human Motion Forecasting ( http://arxiv.org/abs/2402.19237v1 )

ライセンス: Link先を確認
Edgar Medina, Leyong Loh, Namrata Gurung, Kyung Hun Oh, Niels Heller(参考訳) 人間の動きの予測は、自動運転や安全アプリケーションにとって非常に重要なオープンな問題である。 動き列の複雑な時空間的関係のため、これは動きの予測だけでなく、関節接続の予備的な解釈を行う上でも困難な問題である。 本稿では,特定のレイヤを含むGCNをベースとした効率的な3次元ポーズ予測モデルとして,コンテキストベースの解釈可能時空間グラフ畳み込みネットワーク(CIST-GCN)を提案する。 本アーキテクチャは,ポーズシーケンスから有意な情報を抽出し,入力モデルに変位と加速度を集約し,最終的に出力変位を予測する。 ヒト3.6M, AMASS, 3DPW, ExPIデータセットの大規模な実験により、CIST-GCNは人間の動き予測と堅牢性において従来の手法よりも優れていたことが示されている。 動き予測のための解釈可能性を高めるという考え方はそのメリットがあるため,実験を提示し,その知見の予備的評価を行う。 利用可能なコード:https://github.com/QualityMinds/cistgcn

Human motion prediction is still an open problem extremely important for autonomous driving and safety applications. Due to the complex spatiotemporal relation of motion sequences, this remains a challenging problem not only for movement prediction but also to perform a preliminary interpretation of the joint connections. In this work, we present a Context-based Interpretable Spatio-Temporal Graph Convolutional Network (CIST-GCN), as an efficient 3D human pose forecasting model based on GCNs that encompasses specific layers, aiding model interpretability and providing information that might be useful when analyzing motion distribution and body behavior. Our architecture extracts meaningful information from pose sequences, aggregates displacements and accelerations into the input model, and finally predicts the output displacements. Extensive experiments on Human 3.6M, AMASS, 3DPW, and ExPI datasets demonstrate that CIST-GCN outperforms previous methods in human motion prediction and robustness. Since the idea of enhancing interpretability for motion prediction has its merits, we showcase experiments towards it and provide preliminary evaluations of such insights here. available code: https://github.com/QualityMinds/cistgcn
翻訳日:2024-03-03 19:12:24 公開日:2024-02-21
# Checkfor.ai AI生成テキスト分類器の技術報告

Technical Report on the Checkfor.ai AI-Generated Text Classifier ( http://arxiv.org/abs/2402.14873v1 )

ライセンス: Link先を確認
Bradley Emi and Max Spero(参考訳) 本稿では,大規模な言語モデルによって書かれたテキストと,人間が書いたテキストとを区別するために訓練された,トランスフォーマティブベースのニューラルネットワークであるcheckfor.aiテキスト分類器を提案する。 Checkfor.aiは、DetectGPTのようなゼロショットの手法と、包括的なベンチマークで9倍以上のエラー率で商用AI検出ツールを先導し、10つのテキストドメイン(学生の執筆、クリエイティブな執筆、科学的な執筆、書籍、百科事典、ニュース、電子メール、科学論文、ショートフォームQ\&A)と8つのオープンソースおよびクローズドな大規模言語モデルで構成されている。 本稿では, 評価などの高データ領域において, 分類器の偽陽性率を桁違いに下げることのできるトレーニングアルゴリズムである, 合成ミラーを用いた強負のマイニングを提案する。 最後に、checkfor.aiは非ネイティブ英語話者に対して偏っていないことを示し、訓練中は目に見えないドメインやモデルに一般化する。

We present the Checkfor.ai text classifier, a transformer-based neural network trained to distinguish text written by large language models from text written by humans. Checkfor.ai outperforms zero-shot methods such as DetectGPT as well as leading commercial AI detection tools with over 9 times lower error rates on a comprehensive benchmark comprised of ten text domains (student writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form Q\&A) and 8 open- and closed-source large language models. We propose a training algorithm, hard negative mining with synthetic mirrors, that enables our classifier to achieve orders of magnitude lower false positive rates on high-data domains such as reviews. Finally, we show that Checkfor.ai is not biased against nonnative English speakers and generalizes to domains and models unseen during training.
翻訳日:2024-02-26 17:02:55 公開日:2024-02-21
# Semantic Mirror Jailbreak: 遺伝的アルゴリズムによるオープンソースLLMに対するジェイルブレイクプロンプト

Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs ( http://arxiv.org/abs/2402.14872v1 )

ライセンス: Link先を確認
Xiaoxia Li, Siyuan Liang, Jiyi Zhang, Han Fang, Aishan Liu, Ee-Chien Chang(参考訳) 大きな言語モデル(LLM)は、創造的な記述、コード生成、翻訳に使用され、入力シーケンスに基づいたテキストを生成するが、工芸的なプロンプトが有害な出力を誘導するジェイルブレイク攻撃に弱い。 ほとんどのjailbreakプロンプトメソッドは、Jailbreakプロンプトの作成に関する質問に続いて、Jailbreakテンプレートの組み合わせを使用している。 しかし、既存のjailbreakプロンプト設計は一般的に過剰なセマンティックな違いに悩まされ、単純なセマンティックメトリクスをしきい値として使用する防御に抵抗することができない。 ジェイルブレイクプロンプトは、クエリに使われた質問よりも意味的に多様である。 本稿では,semantic mirror jailbreak (smj) アプローチについて紹介する。 セマンティック類似性とジェイルブレイク妥当性の両方を満たすジェイルブレイクプロンプトを多目的最適化問題としてモデル化し,適用可能なプロンプトを生成するための遺伝的アルゴリズムを標準化した。 ベースラインのAutoDAN-GAと比較して、SMJは攻撃成功率(ASR)を最大35.4%上回っており、オニオン防衛は85.2%上回っている。 また、Jailbreak Prompt、Simisity、Outlierの3つの意味論的意味度指標におけるSMJの優れたパフォーマンスは、これらの指標をしきい値として使用する防御に耐性があることを意味する。

Large Language Models (LLMs), used in creative writing, code generation, and translation, generate text based on input sequences but are vulnerable to jailbreak attacks, where crafted prompts induce harmful outputs. Most jailbreak prompt methods use a combination of jailbreak templates followed by questions to ask to create jailbreak prompts. However, existing jailbreak prompt designs generally suffer from excessive semantic differences, resulting in an inability to resist defenses that use simple semantic metrics as thresholds. Jailbreak prompts are semantically more varied than the original questions used for queries. In this paper, we introduce a Semantic Mirror Jailbreak (SMJ) approach that bypasses LLMs by generating jailbreak prompts that are semantically similar to the original question. We model the search for jailbreak prompts that satisfy both semantic similarity and jailbreak validity as a multi-objective optimization problem and employ a standardized set of genetic algorithms for generating eligible prompts. Compared to the baseline AutoDAN-GA, SMJ achieves attack success rates (ASR) that are at most 35.4% higher without ONION defense and 85.2% higher with ONION defense. SMJ's better performance in all three semantic meaningfulness metrics of Jailbreak Prompt, Similarity, and Outlier, also means that SMJ is resistant to defenses that use those metrics as thresholds.
翻訳日:2024-02-26 17:02:32 公開日:2024-02-21
# LLMによる行政領域における意味テンプレートからの半構造化文書のマルチエージェント生成

LLM Based Multi-Agent Generation of Semi-structured Documents from Semantic Templates in the Public Administration Domain ( http://arxiv.org/abs/2402.14871v1 )

ライセンス: Link先を確認
Emanuele Musumeci, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico Daniele Bloisi(参考訳) 近年のデジタル化の過程において、様々な分野、特に公共行政(pa)における文書の作成と管理はますます複雑で多様なものとなっている。 この複雑さは、広範囲のドキュメントタイプを扱う必要性から生じ、しばしば半構造化形式によって特徴づけられる。 半構造化文書は、固定フォーマットのない固定されたデータの集合を示す。 その結果、文書を理解するにはデータ構造を抽出する必要があるため、テンプレートベースのソリューションは使用できない。 最近のLLM(Large Language Models)の導入により、ユーザ要求を満たすカスタマイズされたテキスト出力の作成が可能になった。 そこで本研究では,llmとプロンプトエンジニアリングとマルチエージェントシステムを組み合わせて,所望の構造に準拠した新しい文書を生成する新しい手法を提案する。 この作業の主な貢献は、一般的に使用されるマニュアルプロンプトを、llmから意味検索によって生成されたタスク記述に置き換えることである。 このアプローチのポテンシャルは、実世界のPAシナリオでの有効性を示す一連の実験とケーススタディによって実証される。

In the last years' digitalization process, the creation and management of documents in various domains, particularly in Public Administration (PA), have become increasingly complex and diverse. This complexity arises from the need to handle a wide range of document types, often characterized by semi-structured forms. Semi-structured documents present a fixed set of data without a fixed format. As a consequence, a template-based solution cannot be used, as understanding a document requires the extraction of the data structure. The recent introduction of Large Language Models (LLMs) has enabled the creation of customized text output satisfying user requests. In this work, we propose a novel approach that combines the LLMs with prompt engineering and multi-agent systems for generating new documents compliant with a desired structure. The main contribution of this work concerns replacing the commonly used manual prompting with a task description generated by semantic retrieval from an LLM. The potential of this approach is demonstrated through a series of experiments and case studies, showcasing its effectiveness in real-world PA scenarios.
翻訳日:2024-02-26 17:02:05 公開日:2024-02-21
# アラビア語テキスト分類における停止語除去と非停止語の重み付け手法の効果

Effects of term weighting approach with and without stop words removing on Arabic text classification ( http://arxiv.org/abs/2402.14867v1 )

ライセンス: Link先を確認
Esra'a Alhenawi, Ruba Abu Khurma, Pedro A. Castillo, Maribel G. Arenas(参考訳) テキスト分類は、文書を既定のグループに分類する方法である。 テキスト文書は、分類の前にデータマイニングに使用されるアルゴリズムに適した方法で準備され、表現されなければならない。 その結果、テキスト分類アルゴリズムの機能を強化するために、文献で多くの用語重み付け戦略が作成されている。 本研究は,2項重み付け法と2項重み付け法が,停止語が一度削除された場合にテキストの分類方法に与える影響を比較した。 特徴の事前重み付けによる分類結果の正確性,記憶力,正確性,f-測定値の面での評価には,6つの主要なトピック(農業,経済,健康,政治,科学,スポーツ)に分けられた322の文書からなるアラビア語データセットを使用し,それぞれ50の文書を含むが,61の文書を含む健康カテゴリを除き,それぞれ50の文書を含む。 その結果,すべての測定値において,ストップワード除去による単語頻度重み付けアプローチがバイナリアプローチを上回り,精度,リコール,f-測定では,ストップワード除去を伴わないtfアプローチを上回った。 しかし、正確さのために、2つのアプローチは、非常によく似た結果を生み出す。 さらに、同じフレーズ重み付け手法を用いて、停止語除去が分類精度を高めることは、データから明らかである。

Classifying text is a method for categorizing documents into pre-established groups. Text documents must be prepared and represented in a way that is appropriate for the algorithms used for data mining prior to classification. As a result, a number of term weighting strategies have been created in the literature to enhance text categorization algorithms' functionality. This study compares the effects of Binary and Term frequency weighting feature methodologies on the text's classification method when stop words are eliminated once and when they are not. In recognition of assessing the effects of prior weighting of features approaches on classification results in terms of accuracy, recall, precision, and F-measure values, we used an Arabic data set made up of 322 documents divided into six main topics (agriculture, economy, health, politics, science, and sport), each of which contains 50 documents, with the exception of the health category, which contains 61 documents. The results demonstrate that for all metrics, the term frequency feature weighting approach with stop word removal outperforms the binary approach, while for accuracy, recall, and F-Measure, the binary approach outperforms the TF approach without stop word removal. However, for precision, the two approaches produce results that are very similar. Additionally, it is clear from the data that, using the same phrase weighting approach, stop word removing increases classification accuracy.
翻訳日:2024-02-26 17:01:48 公開日:2024-02-21
# APTQ:大規模言語モデルのための注意認識後混合精度量子化

APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models ( http://arxiv.org/abs/2402.14866v1 )

ライセンス: Link先を確認
Ziyi Guan, Hantao Huang, Yupeng Su, Hong Huang, Ngai Wong and Hao Yu(参考訳) 大規模言語モデル(llm)は自然言語処理パラダイムを大きく進歩させた。 しかし、高い計算負荷と巨大なモデルサイズは、エッジデバイスにデプロイする上で大きな課題となる。 そこで本研究では,各層重みの2次情報だけでなく,モデル全体に対する注意出力の非線形効果も考慮した,llmsのためのaptq(attention-aware post-training mixed-precision quantization)を提案する。 我々は,混合精度量子化の感度指標としてヘッシアントレースを活用し,モデル性能を保ったインフォームド精度低減を実現する。 実験の結果、APTQは従来の量子化法を超え、平均4ビット幅5.22パープレキシティをC4データセットの完全精度とほぼ同等に達成した。 さらに、APTQは、LLaMa-7BとLLaMa-13Bの平均ビット幅において、68.24\%と70.48\%の最先端ゼロショット精度を達成し、高品質の量子化LDMを製造する効果を示す。

Large Language Models (LLMs) have greatly advanced the natural language processing paradigm. However, the high computational load and huge model sizes pose a grand challenge for deployment on edge devices. To this end, we propose APTQ (Attention-aware Post-Training Mixed-Precision Quantization) for LLMs, which considers not only the second-order information of each layer's weights, but also, for the first time, the nonlinear effect of attention outputs on the entire model. We leverage the Hessian trace as a sensitivity metric for mixed-precision quantization, ensuring an informed precision reduction that retains model performance. Experiments show APTQ surpasses previous quantization methods, achieving an average of 4 bit width a 5.22 perplexity nearly equivalent to full precision in the C4 dataset. In addition, APTQ attains state-of-the-art zero-shot accuracy of 68.24\% and 70.48\% at an average bitwidth of 3.8 in LLaMa-7B and LLaMa-13B, respectively, demonstrating its effectiveness to produce high-quality quantized LLMs.
翻訳日:2024-02-26 17:01:22 公開日:2024-02-21
# DyVal 2:メタプローブエージェントによる大規模言語モデルの動的評価

DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents ( http://arxiv.org/abs/2402.14865v1 )

ライセンス: Link先を確認
Kaijie Zhu, Jindong Wang, Qinlin Zhao, Ruochen Xu, Xing Xie(参考訳) 大規模言語モデル (LLM) の評価は, データの汚染問題により, コミュニティで大きな関心を集めている。 既存の作業は、様々なシナリオに容易に拡張できない特定のタスクに対して、適切に定義されたアルゴリズムを使用して評価プロトコルを設計した。 さらに、現在の評価ベンチマークは、全体的なベンチマーク結果のみを提供することができ、LLMの能力のきめ細かい多面的解析をサポートできない。 本稿では,心理指標にインスパイアされた一般動的評価プロトコルであるメタ・プロブリング・エージェント(MPA)を提案する。 MPAはDyVal 2のキーコンポーネントであり、DyVal~\citep{zhu2023dyval} を自然に拡張している。 MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力(言語理解、問題解決、ドメイン知識)に関する心理学的理論に従う新しいものに自動的に変換する。 これらの基本的な機能は動的に設定可能で、多面解析が可能である。 MPAを用いて広範囲な評価を行ったところ,ほとんどのLLMは性能が悪く,改善の余地があることが判明した。 マルチフェイス分析により,基本能力と暗黙のマシュー効果との相関が,モデルサイズ,すなわち,より大きなモデルでは能力の強い相関関係が示された。 MPAはLLMを強化するためのデータ拡張アプローチとしても使用できる。

Evaluation of large language models (LLMs) has raised great concerns in the community due to the issue of data contamination. Existing work designed evaluation protocols using well-defined algorithms for specific tasks, which cannot be easily extended to diverse scenarios. Moreover, current evaluation benchmarks can only provide the overall benchmark results and cannot support a fine-grained and multifaceted analysis of LLMs' abilities. In this paper, we propose meta probing agents (MPA), a general dynamic evaluation protocol inspired by psychometrics to evaluate LLMs. MPA is the key component of DyVal 2, which naturally extends the previous DyVal~\citep{zhu2023dyval}. MPA designs the probing and judging agents to automatically transform an original evaluation problem into a new one following psychometric theory on three basic cognitive abilities: language understanding, problem solving, and domain knowledge. These basic abilities are also dynamically configurable, allowing multifaceted analysis. We conducted extensive evaluations using MPA and found that most LLMs achieve poorer performance, indicating room for improvement. Our multifaceted analysis demonstrated the strong correlation between the basic abilities and an implicit Matthew effect on model size, i.e., larger models possess stronger correlations of the abilities. MPA can also be used as a data augmentation approach to enhance LLMs.
翻訳日:2024-02-26 17:01:00 公開日:2024-02-21
# テイクオーバプロンプトを用いた半自律注意聴取システムの評価

Evaluation of a semi-autonomous attentive listening system with takeover prompting ( http://arxiv.org/abs/2402.14863v1 )

ライセンス: Link先を確認
Haruki Kawai, Divesh Lala, Koji Inoue, Keiko Ochi, Tatsuya Kawahara(参考訳) コミュニケーションのブレークダウンとエンゲージメントの喪失の処理は音声対話システムにおいて重要な側面であり、特にユーザーが主に話している注意深い聞き取りのようなチャットシステムにおいて重要である。 我々は、人間はこのタスクを処理し、会話の流れを救えるのに最も適していると仮定する。 そこで本稿では,遠隔操作者がリアルタイムに自律的注意型リスニングシステムを制御できる半自律システムを提案する。 人間の介入を容易かつ一貫したものにするため,遠隔操作者に明示的なテイクオーバープロンプトを提供するために,低利害とエンゲージメントの自動検出を導入する。 この半自律システムを実装し、オペレータの乗っ取り点を検出し、完全遠隔操作で完全に自律的な聴取システムと比較する。 半自律システムは一般に自律システムよりも肯定的に知覚される。 その結果,ユーザが興味を失い始めると会話のポイントを特定することは,完全に自律的な対話システムを改善するのに役立つ可能性が示唆された。

The handling of communication breakdowns and loss of engagement is an important aspect of spoken dialogue systems, particularly for chatting systems such as attentive listening, where the user is mostly speaking. We presume that a human is best equipped to handle this task and rescue the flow of conversation. To this end, we propose a semi-autonomous system, where a remote operator can take control of an autonomous attentive listening system in real-time. In order to make human intervention easy and consistent, we introduce automatic detection of low interest and engagement to provide explicit takeover prompts to the remote operator. We implement this semi-autonomous system which detects takeover points for the operator and compare it to fully tele-operated and fully autonomous attentive listening systems. We find that the semi-autonomous system is generally perceived more positively than the autonomous system. The results suggest that identifying points of conversation when the user starts to lose interest may help us improve a fully autonomous dialogue system.
翻訳日:2024-02-26 17:00:42 公開日:2024-02-21
# SISSA:車載SOME/IPイーサネットによるハードウェア機能安全とサイバーセキュリティのリアルタイムモニタリング

SISSA: Real-time Monitoring of Hardware Functional Safety and Cybersecurity with In-vehicle SOME/IP Ethernet Traffic ( http://arxiv.org/abs/2402.14862v1 )

ライセンス: Link先を確認
Qi Liu, Xingyu Li, Ke Sun, Yufeng Li, Yanchen Liu(参考訳) スケーラブルなサービス指向ミドルウェアIP(SOME/IP)は、AUTOSAR(Automotive Open System Architecture)におけるイーサネット通信標準プロトコルであり、IPスタック上でECU通信を促進する。 しかし、SOME/IPには堅牢なセキュリティアーキテクチャがないため、潜在的な攻撃を受けやすい。 さらに、ECUのランダムなハードウェア障害はSOME/IP通信を妨害する。 本稿では,車内機能安全とサイバーセキュリティをモデル化・分析するためのSOME/IP通信トラフィックベースアプローチであるSISSAを提案する。 具体的には、SISSAはWeibullディストリビューションによるハードウェア障害をモデル化し、悪意のあるユーザが車載ネットワークにアクセスすると仮定して、Distributed Denial-of-Services、Man-in-the-Middle、異常な通信プロセスを含む、SOME/IP通信に対する5つの潜在的攻撃に対処する。 その後、SISSAは様々なバックボーンを持つ一連のディープラーニングモデルを設計し、ECU間でSOME/IPセッションから特徴を抽出する。 我々は,モデル収束の促進と検出精度の向上,ECUが攻撃を受けているか,機能障害に直面しているか,正常に動作しているかを判断するために,残余の自己アテンションを採用する。 さらに、攻撃、機能、正常さの指標を含む様々なクラスを含むデータセットを作成し、注釈付けしました。 このような特性を持つ公開データセットが不足していることから,この貢献は注目に値する。

Scalable service-Oriented Middleware over IP (SOME/IP) is an Ethernet communication standard protocol in the Automotive Open System Architecture (AUTOSAR), promoting ECU-to-ECU communication over the IP stack. However, SOME/IP lacks a robust security architecture, making it susceptible to potential attacks. Besides, random hardware failure of ECU will disrupt SOME/IP communication. In this paper, we propose SISSA, a SOME/IP communication traffic-based approach for modeling and analyzing in-vehicle functional safety and cyber security. Specifically, SISSA models hardware failures with the Weibull distribution and addresses five potential attacks on SOME/IP communication, including Distributed Denial-of-Services, Man-in-the-Middle, and abnormal communication processes, assuming a malicious user accesses the in-vehicle network. Subsequently, SISSA designs a series of deep learning models with various backbones to extract features from SOME/IP sessions among ECUs. We adopt residual self-attention to accelerate the model's convergence and enhance detection accuracy, determining whether an ECU is under attack, facing functional failure, or operating normally. Additionally, we have created and annotated a dataset encompassing various classes, including indicators of attack, functionality, and normalcy. This contribution is noteworthy due to the scarcity of publicly accessible datasets with such characteristics.Extensive experimental results show the effectiveness and efficiency of SISSA.
翻訳日:2024-02-26 17:00:26 公開日:2024-02-21
# cloudnine:説明可能なグラフニューラルネットワークを用いた気象予測における気象観測の影響分析

CloudNine: Analyzing Meteorological Observation Impact on Weather Prediction Using Explainable Graph Neural Networks ( http://arxiv.org/abs/2402.14861v1 )

ライセンス: Link先を確認
Hyeon-Ju Jeon and Jeon-Ho Kang and In-Hyuk Kwon and O-Joun Lee(参考訳) 気象観測が天気予報に与える影響は、センサーの種類、位置、時間、その他の環境要因によって異なる。 したがって、気象予報システムの効率的かつ効率的な開発には、観測影響の定量的分析が不可欠である。 しかし,既存の影響分析手法は,特定の予測システムへの依存度が高いため,広く適用することは困難である。 また、複数の時空間スケールで観測効果を与えることができず、観測タイプの大域的な影響しか与えない。 これらの問題に対処するために,説明可能なグラフニューラルネットワーク(XGNN)に基づいて個々の観測結果が特定の予測に与える影響を分析する「CloudNine」という新しいシステムを提案する。 xgnnに基づく大気状態推定モデルと数値気象予測モデルを組み合わせることで、地球系の3次元空間における観測を探索し、個々の観測が特定の空間領域や時間における予測に与える影響を可視化するウェブアプリケーションを提供する。

The impact of meteorological observations on weather forecasting varies with sensor type, location, time, and other environmental factors. Thus, quantitative analysis of observation impacts is crucial for effective and efficient development of weather forecasting systems. However, the existing impact analysis methods are difficult to be widely applied due to their high dependencies on specific forecasting systems. Also, they cannot provide observation impacts at multiple spatio-temporal scales, only global impacts of observation types. To address these issues, we present a novel system called ``CloudNine,'' which allows analysis of individual observations' impacts on specific predictions based on explainable graph neural networks (XGNNs). Combining an XGNN-based atmospheric state estimation model with a numerical weather prediction model, we provide a web application to search for observations in the 3D space of the Earth system and to visualize the impact of individual observations on predictions in specific spatial regions and time periods.
翻訳日:2024-02-26 16:59:54 公開日:2024-02-21
# 根拠のない大規模言語モデルのランク付け

Ranking Large Language Models without Ground Truth ( http://arxiv.org/abs/2402.14860v1 )

ライセンス: Link先を確認
Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly and Karthikeyan Natesan Ramamurthy(参考訳) 大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及とその影響において重要な問題となっている。 評価手法は、取得に費用がかかる人間の反応を必要とするか、信頼できないLLMを互いに評価するために使用するかのいずれかである。 本稿では,質問文や指示文など)のデータセットとLLMのセットを与えられた場合,根拠となる真実や参照応答にアクセスできることなく,それらをランク付けする,新しい視点を提供する。 専門家と知識のある人の両方が初心者を識別できる現実の生活に触発された私たちの主要なアイデアは、モデルの三つ子を考えることであり、それぞれが他の2つを評価し、三つ子の中で最悪のモデルを高い確率で正しく識別する。 また、私たちの考えを分析し、成功するための十分な条件を提供します。 この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。 異なる生成タスク(要約、複数選択、ダイアログ)の実験では、参照データなしで真のランキングに近い位置を確実に回復する。 これは実用上有効な低リソースメカニズムを示している。

Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use.
翻訳日:2024-02-26 16:59:39 公開日:2024-02-21
# ChatGPTによる加熱に対するテスト質問の脆弱性に関する検討

A Study on the Vulnerability of Test Questions against ChatGPT-based Cheating ( http://arxiv.org/abs/2402.14881v1 )

ライセンス: Link先を確認
Shanker Ram and Chen Qian(参考訳) chatgptは、テキストプロンプトに比較的正確に答えるチャットボットで、大学院レベルの質問でも非常にうまく機能する。 多くの教育者は、ChatGPTのようなツールから直接回答を利用できるため、彼らの持ち帰りテストや遠隔テストや試験がChatGPTベースの不正行為に弱いことを発見している。 本稿では,ChatGPTがテスト質問にどの程度うまく答えられるか,テストの質問がChatGPTによって正しく答えられるかどうかをどうやって検出できるかという,重要な質問に対する回答を提案する。 MedMCQAデータセットに対するChatGPTの反応を作成した。 回答を解析し,ChatGPTが他の質問よりも不正確な回答を示した。 さらに我々は,ChatGPTに対する最も脆弱な質問を,質問の収集やサンプル試験で抽出する,基本的な自然言語処理モデルを構築した。 テストマニュファクチャはChatGPT-vulnerable testの質問を避けるために,テストメーカが使用することができる。

ChatGPT is a chatbot that can answer text prompts fairly accurately, even performing very well on postgraduate-level questions. Many educators have found that their take-home or remote tests and exams are vulnerable to ChatGPT-based cheating because students may directly use answers provided by tools like ChatGPT. In this paper, we try to provide an answer to an important question: how well ChatGPT can answer test questions and how we can detect whether the questions of a test can be answered correctly by ChatGPT. We generated ChatGPT's responses to the MedMCQA dataset, which contains over 10,000 medical school entrance exam questions. We analyzed the responses and uncovered certain types of questions ChatGPT answers more inaccurately than others. In addition, we have created a basic natural language processing model to single out the most vulnerable questions to ChatGPT in a collection of questions or a sample exam. Our tool can be used by test-makers to avoid ChatGPT-vulnerable test questions.
翻訳日:2024-02-26 16:50:54 公開日:2024-02-21
# 自動ヒストグラム:テキストデータセット探索に言語モデルを活用する

Automatic Histograms: Leveraging Language Models for Text Dataset Exploration ( http://arxiv.org/abs/2402.14880v1 )

ライセンス: Link先を確認
Emily Reif, Crystal Qian, James Wexler, Minsuk Kahng(参考訳) 構造化されていないテキストデータセットを理解することは、年々困難であるが、大きな言語モデルに益々関係してきている。 データワーカーはしばしばデータセットの要約、特に様々な派生した特徴の分布に依存する。 毒性やトピックなどのいくつかの機能は、多くのデータセットに関連するが、多くの興味深い特徴はドメイン固有である:音楽データセットの楽器とジャンル、医療データセットの疾患と症状。 したがって、データワーカーはデータセットごとにカスタム分析を実行することが多い。 本稿では,LLMを利用した可視化ツールAutoHistogramsを紹介する。 AutoHistogramsは、関連する機能を自動的に識別し、ヒストグラムで視覚化し、ユーザはエンティティのカテゴリのデータセットをインタラクティブにクエリし、新しいヒストグラムを作成することができる。 10人のデータワーカーによるユーザスタディ(n=10)において、参加者はAutoHistogramsを用いてインサイトを素早く把握し、データを探索し、幅広い応用事例を概念化する。 このツールとユーザ研究は、llm支援のセンスメイキングツールの成長に寄与する。

Making sense of unstructured text datasets is perennially difficult, yet increasingly relevant with Large Language Models. Data workers often rely on dataset summaries, especially distributions of various derived features. Some features, like toxicity or topics, are relevant to many datasets, but many interesting features are domain specific: instruments and genres for a music dataset, or diseases and symptoms for a medical dataset. Accordingly, data workers often run custom analyses for each dataset, which is cumbersome and difficult. We present AutoHistograms, a visualization tool leveragingLLMs. AutoHistograms automatically identifies relevant features, visualizes them with histograms, and allows the user to interactively query the dataset for categories of entities and create new histograms. In a user study with 10 data workers (n=10), we observe that participants can quickly identify insights and explore the data using AutoHistograms, and conceptualize a broad range of applicable use cases. Together, this tool and user study contributeto the growing field of LLM-assisted sensemaking tools.
翻訳日:2024-02-26 16:50:38 公開日:2024-02-21
# 人格による生成エージェントの運転

Driving Generative Agents With Their Personality ( http://arxiv.org/abs/2402.14879v1 )

ライセンス: Link先を確認
Lawrence J. Klinkert, Stephanie Buongiorno, and Corey Clark(参考訳) 本研究では,ゲームキャラクタ開発における心理測定値,特にパーソナリティ情報を活用するためのLarge Language Models (LLMs) の可能性を探る。 Affective Computing (AC) システムは、Non-Playerキャラクタのサイコ(NPC)を定量化し、LLMは、その値を使って、そのシステムの情報を利用することができる。 この研究は、LLMが与えられたパーソナリティプロファイルを一貫して表現できることを示し、ゲームキャラクタの人間的な特性を高める。 LLMを評価するための国際パーソナリティアイテムプール (IPIP) アンケートでは, 提案するパーソナリティに関するコンテンツを正確に生成できることが示されている。 その結果、最新のGPT-4モデルのようなLCMの改善は、行動を表現するために、一貫してパーソナリティを活用・解釈できることが示唆された。

This research explores the potential of Large Language Models (LLMs) to utilize psychometric values, specifically personality information, within the context of video game character development. Affective Computing (AC) systems quantify a Non-Player character's (NPC) psyche, and an LLM can take advantage of the system's information by using the values for prompt generation. The research shows an LLM can consistently represent a given personality profile, thereby enhancing the human-like characteristics of game characters. Repurposing a human examination, the International Personality Item Pool (IPIP) questionnaire, to evaluate an LLM shows that the model can accurately generate content concerning the personality provided. Results show that the improvement of LLM, such as the latest GPT-4 model, can consistently utilize and interpret a personality to represent behavior.
翻訳日:2024-02-26 16:50:10 公開日:2024-02-21
# 学習記憶を用いたAIシステムの訓練におけるエネルギー効率限界

Energy-efficiency Limits on Training AI Systems using Learning-in-Memory ( http://arxiv.org/abs/2402.14878v1 )

ライセンス: Link先を確認
Zihao Chen and Johannes Leugering and Gert Cauwenberghs and Shantanu Chakrabartty(参考訳) learning-in-memory (lim) は、機械学習システムのトレーニングにおいて基本的なメモリボトルネックを克服するために最近提案されたパラダイムである。 コンピュート・イン・メモリ(CIM)アプローチは、いわゆるメモリウォール(すなわち、繰り返しメモリの読み取りアクセスによって放出されるエネルギー)に対処できるが、トレーニングに必要な正確さ(更新ウォール)において繰り返しメモリ書き込みによって放出されるエネルギーとは無関係であり、短期記憶と長期記憶の間で情報を転送する際に放出されるエネルギー(統合ウォール)を考慮しない。 limパラダイムは、物理的記憶のエネルギー障壁が適応的に変調され、記憶の更新と統合のダイナミクスがaiモデルの勾配-青年トレーニングのリアプノフダイナミクスにマッチするようにすれば、これらのボトルネックも克服できると提案している。 本稿では、異なるLIM手法を用いてAIシステムのトレーニングを行う際に、エネルギー散逸に関する理論的な下限を導出する。 ここでは、モデルに依存しない分析を行い、エネルギー効率とトレーニング速度のトレードオフを強調した。 結果として生じる非平衡エネルギー効率境界は、ランダウアーのエネルギー散逸境界と同じ風味を持つ。 また、トレーニングに使用する浮動小数点演算(FLOP)の数、AIモデルのサイズ、トレーニングパラメータの精度を考慮して、これらの制限を拡張する。 我々の予測では、LIMを用いた脳規模のAIシステムをトレーニングするためのエネルギー散逸は10^8 \sim 10^9$ Joulesであり、これはランダウアーのアディベート低バウンドと同じ大きさで、最先端のAIアクセラレーターハードウェアの低バウンドを用いて得られた予測よりも6ドルから7ドル低い。

Learning-in-memory (LIM) is a recently proposed paradigm to overcome fundamental memory bottlenecks in training machine learning systems. While compute-in-memory (CIM) approaches can address the so-called memory-wall (i.e. energy dissipated due to repeated memory read access) they are agnostic to the energy dissipated due to repeated memory writes at the precision required for training (the update-wall), and they don't account for the energy dissipated when transferring information between short-term and long-term memories (the consolidation-wall). The LIM paradigm proposes that these bottlenecks, too, can be overcome if the energy barrier of physical memories is adaptively modulated such that the dynamics of memory updates and consolidation match the Lyapunov dynamics of gradient-descent training of an AI model. In this paper, we derive new theoretical lower bounds on energy dissipation when training AI systems using different LIM approaches. The analysis presented here is model-agnostic and highlights the trade-off between energy efficiency and the speed of training. The resulting non-equilibrium energy-efficiency bounds have a similar flavor as that of Landauer's energy-dissipation bounds. We also extend these limits by taking into account the number of floating-point operations (FLOPs) used for training, the size of the AI model, and the precision of the training parameters. Our projections suggest that the energy-dissipation lower-bound to train a brain scale AI system (comprising of $10^{15}$ parameters) using LIM is $10^8 \sim 10^9$ Joules, which is on the same magnitude the Landauer's adiabatic lower-bound and $6$ to $7$ orders of magnitude lower than the projections obtained using state-of-the-art AI accelerator hardware lower-bounds.
翻訳日:2024-02-26 16:49:43 公開日:2024-02-21
# 大西洋平均転回循環の先端崩壊の機械学習による予測

Machine-learning prediction of tipping and collapse of the Atlantic Meridional Overturning Circulation ( http://arxiv.org/abs/2402.14877v1 )

ライセンス: Link先を確認
Shirin Panahi, Ling-Wei Kong, Mohammadamin Moradi, Zheng-Meng Zhai, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai(参考訳) 近年のAtlantic Meridional Overturning Circulation (AMOC)の研究は、気候変動により北大西洋への淡水流入が増加し、先端部が崩壊する可能性を懸念している。 予測された崩壊の時間窓は、世紀半ばに集中しており、最初期の始まりは、現在から約2年後である。 より一般に、システムがある安定定常状態から別の状態へ遷移するチップングポイントを予測することは、広い範囲のフィールドに関係している。 AMOC, 生態ネットワーク, 電力システム, 気候モデルなど, 様々なシステムにおいて, 時間変化パラメータによる音質動的システムのチップピングを予測し, テストする機械学習手法を開発した。 AMOCでは,シミュレーションされた指紋データと海面温度の実データに基づいて,2040年から2065年の間に潜在的崩壊の時間窓を配置した。

Recent research on the Atlantic Meridional Overturning Circulation (AMOC) raised concern about its potential collapse through a tipping point due to the climate-change caused increase in the freshwater input into the North Atlantic. The predicted time window of collapse is centered about the middle of the century and the earliest possible start is approximately two years from now. More generally, anticipating a tipping point at which the system transitions from one stable steady state to another is relevant to a broad range of fields. We develop a machine-learning approach to predicting tipping in noisy dynamical systems with a time-varying parameter and test it on a number of systems including the AMOC, ecological networks, an electrical power system, and a climate model. For the AMOC, our prediction based on simulated fingerprint data and real data of the sea surface temperature places the time window of a potential collapse between the years 2040 and 2065.
翻訳日:2024-02-26 16:48:43 公開日:2024-02-21
# 名前の由来は? レースとジェンダーバイアスのための大規模言語モデルの検討

What's in a Name? Auditing Large Language Models for Race and Gender Bias ( http://arxiv.org/abs/2402.14875v1 )

ライセンス: Link先を確認
Amit Haim, Alejandro Salinas, Julian Nyarko(参考訳) 我々はGPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。 本研究では,自動車購入交渉や選挙結果予測など,さまざまなシナリオにおいて,個人に関するアドバイスをモデルに提案する。 このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。 黒人女性にまつわる名前は、最も有利な結果を得る。 バイアスは42のプロンプトテンプレートといくつかのモデルで一貫性があり、孤立したインシデントではなく、システム的な問題を示している。 プロンプトに数値的かつ決定関連のあるアンカーを提供することで、バイアスをうまく対処できるが、質的詳細は矛盾する効果を持ち、不一致を増加させることもある。 本研究は, LLMの展開と実施の時点での監査の実施の重要性を浮き彫りにした。

We employ an audit design to investigate biases in state-of-the-art large language models, including GPT-4. In our study, we elicit prompt the models for advice regarding an individual across a variety of scenarios, such as during car purchase negotiations or election outcome predictions. We find that the advice systematically disadvantages names that are commonly associated with racial minorities and women. Names associated with Black women receive the least advantageous outcomes. The biases are consistent across 42 prompt templates and several models, indicating a systemic issue rather than isolated incidents. While providing numerical, decision-relevant anchors in the prompt can successfully counteract the biases, qualitative details have inconsistent effects and may even increase disparities. Our findings underscore the importance of conducting audits at the point of LLM deployment and implementation to mitigate their potential for harm against marginalized communities.
翻訳日:2024-02-26 16:48:03 公開日:2024-02-21
# 蒸留コントラストデコード:コントラストデコードと蒸留によるllms推論の改善

Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation ( http://arxiv.org/abs/2402.14874v1 )

ライセンス: Link先を確認
Phuc Phan, Hieu Tran, Long Phan(参考訳) 本稿では,大規模言語モデル(LLM)の推論能力を高めるため,DCD(Distillation Contrastive Decoding)という簡単な手法を提案する。 より小さなアマチュアモデルや隠れ状態の違いの分析に頼っていた従来のアプローチとは対照的に、DCDはContrastive Chain-of- Thought PromptingとDropoutやQuantizationといった高度な蒸留技術を採用している。 このアプローチは、通常、専門家とアマチュアモデルの両方を必要とするコントラスト・デコード(cd)の限界に効果的に対応し、計算資源の要求を増加させる。 対照的なプロンプトと蒸留を統合することで、DCDはアマチュアモデルの必要性を排除し、メモリ使用量を減らす。 GSM8KデータセットとStrategyQAデータセットのCDおよび既存手法に比較して,DCDがLLM性能を大幅に向上することを示す。

We propose a straightforward approach called Distillation Contrastive Decoding (DCD) to enhance the reasoning capabilities of Large Language Models (LLMs) during inference. In contrast to previous approaches that relied on smaller amateur models or analysis of hidden state differences, DCD employs Contrastive Chain-of-thought Prompting and advanced distillation techniques, including Dropout and Quantization. This approach effectively addresses the limitations of Contrastive Decoding (CD), which typically requires both an expert and an amateur model, thus increasing computational resource demands. By integrating contrastive prompts with distillation, DCD obviates the need for an amateur model and reduces memory usage. Our evaluations demonstrate that DCD significantly enhances LLM performance across a range of reasoning benchmarks, surpassing both CD and existing methods in the GSM8K and StrategyQA datasets.
翻訳日:2024-02-26 16:47:35 公開日:2024-02-21
# リジェクトオプションによる機械学習: 調査

Machine Learning with a Reject Option: A survey ( http://arxiv.org/abs/2107.11277v3 )

ライセンス: Link先を確認
Kilian Hendrickx, Lorenzo Perini, Dries Van der Plas, Wannes Meert, Jesse Davis(参考訳) 機械学習モデルは、不正確になりやすい場合でも、常に予測を行う。 この振る舞いは、多くの意思決定支援アプリケーションで避けるべきであり、ミスが深刻な結果をもたらす可能性がある。 1970年にはすでに勉強していたが、最近は拒絶を伴う機械学習が関心を集めている。 この機械学習サブフィールドにより、機械学習モデルは、間違いを犯す可能性のある予測を控えることができる。 この調査は、拒絶を伴う機械学習の概要を提供することを目的としている。 我々は,2種類の拒絶,曖昧さ,新規性拒絶につながる条件を導入し,慎重に定式化する。 さらに,モデルの予測的かつ拒絶的品質を評価するための戦略をレビューし,分類する。 さらに、拒絶を伴うモデルに対する既存のアーキテクチャを定義し、そのようなモデルを学ぶための標準技術を記述する。 最後に、関連するアプリケーションドメインの例を示し、機械学習が他の機械学習研究領域とどのように関係しているかを示す。

Machine learning models always make a prediction, even when it is likely to be inaccurate. This behavior should be avoided in many decision support applications, where mistakes can have severe consequences. Albeit already studied in 1970, machine learning with rejection recently gained interest. This machine learning subfield enables machine learning models to abstain from making a prediction when likely to make a mistake. This survey aims to provide an overview on machine learning with rejection. We introduce the conditions leading to two types of rejection, ambiguity and novelty rejection, which we carefully formalize. Moreover, we review and categorize strategies to evaluate a model's predictive and rejective quality. Additionally, we define the existing architectures for models with rejection and describe the standard techniques for learning such models. Finally, we provide examples of relevant application domains and show how machine learning with rejection relates to other machine learning research areas.
翻訳日:2024-02-23 19:35:39 公開日:2024-02-21
# 多モードフォトニック結晶における超強光間相互作用

Ultrastrong light-matter interaction in a multimode photonic crystal ( http://arxiv.org/abs/2209.14972v2 )

ライセンス: Link先を確認
Andrei Vrajitoarea, Ron Belyansky, Rex Lundgren, Seth Whitsitt, Alexey V. Gorshkov, Andrew A. Houck(参考訳) 量子レベルでの光と物質間の相互作用の調和は、量子物理学や量子光学において中心的なテーマであり、量子計算から量子力学への応用がある。 複雑な相互作用とフォトニック合成材料を組み合わせることで、新しい量子相や現象を研究する機会となり、凝縮物質物理学と興味深いつながりが確立される。 ここでは、フォトニック結晶の多くの離散モードに結合した単一の人工原子による多体現象を探索する。 この実験は、非常に非線形なフラックスニウム量子ビットをマイクロ波共振器のタイト結合格子に強結合することにより、回路量子電磁力学パラダイムを用いて超強光マッター結合状態に達する。 この状態において、単一光子の輸送は、粒子数保存を破る相互作用から生じる多光子境界状態の強い関与のため、多体問題となる。 量子ビットによって媒介される効果的な光子-光子相互作用を爆発させると、複数の光子の輸送は、量子ネットワークの重要なリソースである強相関光子の連続的な貯留物を生成するのに使用できる複雑な多重モードダイナミクスをもたらす。 この研究は、単一光子レベルで非線形量子光学を探索し、絡み合った多体位相を安定化するエキサイティングな展望を開く。

Harnessing the interaction between light and matter at the quantum level has been a central theme in atomic physics and quantum optics, with applications from quantum computation to quantum metrology. Combining complex interactions with photonic synthetic materials provides an opportunity to investigate novel quantum phases and phenomena, establishing interesting connections to condensed matter physics. Here we explore many-body phenomena with a single artificial atom coupled to the many discrete modes of a photonic crystal. This experiment reaches the ultrastrong light-matter coupling regime using the circuit quantum electrodynamics paradigm, by galvanically coupling a highly nonlinear fluxonium qubit to a tight-binding lattice of microwave resonators. In this regime, the transport of a single photon becomes a many-body problem, owing to the strong participation of multi-photon bound states arising from interactions that break particle number conservation. Exploiting the effective photon-photon interactions mediated by the qubit, the transport of multiple photons leads to complex multimode dynamics that can be employed for generating a continuous reservoir of strongly-correlated photons, an important resource for quantum networks. This work opens exciting prospects for exploring nonlinear quantum optics at the single-photon level and stabilizing entangled many-body phases of light.
翻訳日:2024-02-23 19:32:37 公開日:2024-02-21
# グラフ上での機械学習の公正性に関する調査

A Survey on Fairness for Machine Learning on Graphs ( http://arxiv.org/abs/2205.05396v2 )

ライセンス: Link先を確認
Charlotte Laclau and Christine Largeron and Manvi Choudhary(参考訳) 今日、グラフによってモデル化された複雑な現象の分析は、決定が社会的に強い影響をもたらす多くの現実世界のアプリケーションドメインにおいて重要な役割を果たす。 しかし、多くの研究や論文が、機械学習モデルが個人間の異なる扱いと不公平な結果をもたらす可能性があることを最近明らかにしている。 すなわち、(1)グラフデータは非iidであり、この仮定は、公正な機械学習における多くの既存の研究を無効にする可能性がある、(2)関係データと異なる種類の公平性を評価するのに適切なメトリック定義、(3)モデルの正確性と公平性の間の良好なトレードオフを見つけるのに困難となるアルゴリズム的挑戦である。 この調査は、リレーショナルデータに対する公平性に特化した最初の調査である。 グラフマイニングの公平性に関する最新技術の包括的なレビューと,オープンな課題と今後のトレンドの特定を目的とする。 特に,いくつかのアプリケーションドメインと関連するグラフマイニングタスクを,後続のエッジ予測とノード分類に焦点をあてて提示することから始める。 グラフマイニングプロセスのさまざまなレベルで潜在的なバイアスを評価するために提案されたさまざまな指標を思い出し、グラフに対する公正な機械学習の領域における最近の貢献を包括的に概観し、前処理、内処理、後処理モデルに分類する。 また,既存のグラフデータ,合成および実世界のベンチマークについても述べる。 最後に,グラフ上でのアルゴリズム的公正性の研究を推し進める5つの可能性を示す。

Nowadays, the analysis of complex phenomena modeled by graphs plays a crucial role in many real-world application domains where decisions can have a strong societal impact. However, numerous studies and papers have recently revealed that machine learning models could lead to potential disparate treatment between individuals and unfair outcomes. In that context, algorithmic contributions for graph mining are not spared by the problem of fairness and present some specific challenges related to the intrinsic nature of graphs: (1) graph data is non-IID, and this assumption may invalidate many existing studies in fair machine learning, (2) suited metric definitions to assess the different types of fairness with relational data and (3) algorithmic challenge on the difficulty of finding a good trade-off between model accuracy and fairness. This survey is the first one dedicated to fairness for relational data. It aims to present a comprehensive review of state-of-the-art techniques in fairness on graph mining and identify the open challenges and future trends. In particular, we start by presenting several sensible application domains and the associated graph mining tasks with a focus on edge prediction and node classification in the sequel. We also recall the different metrics proposed to evaluate potential bias at different levels of the graph mining process; then we provide a comprehensive overview of recent contributions in the domain of fair machine learning for graphs, that we classify into pre-processing, in-processing and post-processing models. We also propose to describe existing graph data, synthetic and real-world benchmarks. Finally, we present in detail five potential promising directions to advance research in studying algorithmic fairness on graphs.
翻訳日:2024-02-23 19:31:23 公開日:2024-02-21
# StreaMulT:不均一および任意列データのためのマルチモーダル変換器

StreaMulT: Streaming Multimodal Transformer for Heterogeneous and Arbitrary Long Sequential Data ( http://arxiv.org/abs/2110.08021v2 )

ライセンス: Link先を確認
Victor Pellegrain (1 and 2), Myriam Tami (2), Michel Batteux (1), C\'eline Hudelot (2) ((1) Institut de Recherche Technologique SystemX, (2) Universit\'e Paris-Saclay, CentraleSup\'elec, MICS)(参考訳) 産業4.0システムの複雑さの増大は、故障検出や診断などの予測メンテナンスタスクに新たな課題をもたらす。 対応する現実的な設定には、センサ計測時系列、マシンイメージ、テキストメンテナンスレポートなど、さまざまなモダリティからのマルチソースデータストリームが含まれる。 これらの異種マルチモーダルストリームは、取得頻度も異なり、時間的に不整合な情報を埋め込み、考慮されたシステムやタスクによって任意に長いことができる。 マルチモーダル融合は静的な環境で研究されているが、我々の知る限り、時間にわたって予測などの関連するタスクとともに、任意に長いマルチモーダルストリームを考慮に入れた以前の研究は存在しない。 そこで本稿では,ストリーミング環境における異種マルチモーダル学習のパラダイムを,新たな手法として定式化する。 この課題に対処するために,ストリームマルチモーダルトランスであるStreaMulTを提案する。これは,クロスモーダルアテンションとメモリバンクを用いて,トレーニング時に任意に長い入力シーケンスを処理し,推論時にストリーミング処理を行う。 StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。 実験は最終的にテキスト埋め込み層の重要性を強調し、最近のマルチモーダル感性分析ベンチマークの改善を疑問視する。

The increasing complexity of Industry 4.0 systems brings new challenges regarding predictive maintenance tasks such as fault detection and diagnosis. A corresponding and realistic setting includes multi-source data streams from different modalities, such as sensors measurements time series, machine images, textual maintenance reports, etc. These heterogeneous multimodal streams also differ in their acquisition frequency, may embed temporally unaligned information and can be arbitrarily long, depending on the considered system and task. Whereas multimodal fusion has been largely studied in a static setting, to the best of our knowledge, there exists no previous work considering arbitrarily long multimodal streams alongside with related tasks such as prediction across time. Thus, in this paper, we first formalize this paradigm of heterogeneous multimodal learning in a streaming setting as a new one. To tackle this challenge, we propose StreaMulT, a Streaming Multimodal Transformer relying on cross-modal attention and on a memory bank to process arbitrarily long input sequences at training time and run in a streaming way at inference. StreaMulT improves the state-of-the-art metrics on CMU-MOSEI dataset for Multimodal Sentiment Analysis task, while being able to deal with much longer inputs than other multimodal models. The conducted experiments eventually highlight the importance of the textual embedding layer, questioning recent improvements in Multimodal Sentiment Analysis benchmarks.
翻訳日:2024-02-23 19:28:18 公開日:2024-02-21
# 解釈可能な因果変数と分散神経表現のアライメントの探索

Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations ( http://arxiv.org/abs/2303.02536v4 )

ライセンス: Link先を確認
Atticus Geiger and Zhengxuan Wu and Christopher Potts and Thomas Icard and Noah D. Goodman(参考訳) 因果抽象は、解釈可能な高レベル因果モデルが低レベルのディープラーニングシステムの忠実な単純化である場合を定義する、説明可能な人工知能のための有望な理論的枠組みである。 しかし、既存の因果的抽象法には2つの大きな制限がある: それらは高レベルモデルと低レベルモデルの整合性に関するブルートフォース探索を必要とし、高レベルモデルの変数は低レベルモデルのニューロンの解離集合と整合することを前提としている。 本稿では,これらの制約を克服する分散アライメント探索(DAS)を提案する。 dasでは、ブリュートフォース探索を行うのではなく、勾配降下を用いた高レベルモデルと低レベルモデルのアライメントを見いだし、非標準基底分布表現の表現を解析することにより、個々のニューロンが複数の異なる役割を担えるようにした。 実験の結果,DASは従来のアプローチが見逃す内部構造を発見できることがわかった。 全体として、DASは因果的抽象解析の過去の障害を取り除き、訓練されたニューラルネットワークの概念構造を見つけることができる。

Causal abstraction is a promising theoretical framework for explainable artificial intelligence that defines when an interpretable high-level causal model is a faithful simplification of a low-level deep learning system. However, existing causal abstraction methods have two major limitations: they require a brute-force search over alignments between the high-level model and the low-level one, and they presuppose that variables in the high-level model will align with disjoint sets of neurons in the low-level one. In this paper, we present distributed alignment search (DAS), which overcomes these limitations. In DAS, we find the alignment between high-level and low-level models using gradient descent rather than conducting a brute-force search, and we allow individual neurons to play multiple distinct roles by analyzing representations in non-standard bases-distributed representations. Our experiments show that DAS can discover internal structure that prior approaches miss. Overall, DAS removes previous obstacles to conducting causal abstraction analyses and allows us to find conceptual structure in trained neural nets.
翻訳日:2024-02-23 19:22:44 公開日:2024-02-21
# 構造スパースを用いたダイナミックスパーストレーニング

Dynamic Sparse Training with Structured Sparsity ( http://arxiv.org/abs/2305.02299v4 )

ライセンス: Link先を確認
Mike Lasby, Anna Golubeva, Utku Evci, Mihai Nica, Yani Ioannou(参考訳) 動的スパーストレーニング(dst)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成し、スパーストレーニングと推論を可能にしながら、密集したモデルの一般化と一致する。 結果のモデルは非常に疎結合であり、理論上は計算コストが低いが、現実のハードウェア上で非構造化の間隔でスピードアップを達成することは困難である。 本研究では, 一定のファンイン制約を課すことで, 微細構造N:M空間の変動を学習するための, スパース・トゥ・スパースDST法であるStructured RigL(SRigL)を提案する。 既存のDST手法を高間隔で実証分析することにより,SRigLが様々なニューラルネットワーク(NN)アーキテクチャ上で,最先端のスパース・ツー・スパース構造DST性能を達成できるニューロンアブレーション法も導入する。 90%のスパース線形層を用いて、オンライン推論用のCPUで3.4x/2.5x、バッチサイズ256のGPUで1.7x/13.0xのリアルタイム加速度を、等価密度/非構造化(CSR)スパース層と比較して示す。

Dynamic Sparse Training (DST) methods achieve state-of-the-art results in sparse neural network training, matching the generalization of dense models while enabling sparse training and inference. Although the resulting models are highly sparse and theoretically less computationally expensive, achieving speedups with unstructured sparsity on real-world hardware is challenging. In this work, we propose a sparse-to-sparse DST method, Structured RigL (SRigL), to learn a variant of fine-grained structured N:M sparsity by imposing a constant fan-in constraint. Using our empirical analysis of existing DST methods at high sparsity, we additionally employ a neuron ablation method which enables SRigL to achieve state-of-the-art sparse-to-sparse structured DST performance on a variety of Neural Network (NN) architectures. Using a 90% sparse linear layer, we demonstrate a real-world acceleration of 3.4x/2.5x on CPU for online inference and 1.7x/13.0x on GPU for inference with a batch size of 256 when compared to equivalent dense/unstructured (CSR) sparse layers, respectively.
翻訳日:2024-02-23 19:12:10 公開日:2024-02-21
# トポロジカルディープラーニングのアーキテクチャ:メッセージパージングトポロジカルニューラルネットワークの調査

Architectures of Topological Deep Learning: A Survey of Message-Passing Topological Neural Networks ( http://arxiv.org/abs/2304.10031v3 )

ライセンス: Link先を確認
Mathilde Papillon, Sophia Sanborn, Mustafa Hajij, Nina Miolane(参考訳) 自然界は、その構成要素間の複雑な関係によって特徴づけられる複雑なシステムでいっぱいである:ソーシャルネットワーク内の個人間の社会的相互作用から、タンパク質内の原子間の静電気的相互作用まで。 トポロジカルディープラーニング(topological deep learning, tdl)は、個人が属する社会コミュニティの予測や、タンパク質が薬物開発に適したターゲットとなるかどうかの予測など、これらのシステムに関連するデータから知識を処理および抽出するための包括的なフレームワークを提供する。 TDLは、応用科学以上の分野において、破滅の約束を守る理論的、実践的な利点を示してきた。 しかし、リレーショナルシステムにおけるTDL文学の急速な発展は、メッセージパスするトポロジカルニューラルネットワーク(TNN)アーキテクチャ間の表記と言語の統合の欠如につながっている。 これは、既存の作業に基づいて構築し、メッセージパッシングTNNを新たな現実的な問題にデプロイする上で、真の障害となる。 この問題に対処するため,リレーショナルシステムのためのTDLの導入と,数学的およびグラフィカルな統一表記法を用いて最近公開されたメッセージパスTNNを比較した。 tdlの新興分野に関する直感的かつ批判的なレビューを通じて、現在の課題と将来の開発へのエキサイティングな機会に対する貴重な洞察を抽出します。

The natural world is full of complex systems characterized by intricate relations between their components: from social interactions between individuals in a social network to electrostatic interactions between atoms in a protein. Topological Deep Learning (TDL) provides a comprehensive framework to process and extract knowledge from data associated with these systems, such as predicting the social community to which an individual belongs or predicting whether a protein can be a reasonable target for drug development. TDL has demonstrated theoretical and practical advantages that hold the promise of breaking ground in the applied sciences and beyond. However, the rapid growth of the TDL literature for relational systems has also led to a lack of unification in notation and language across message-passing Topological Neural Network (TNN) architectures. This presents a real obstacle for building upon existing works and for deploying message-passing TNNs to new real-world problems. To address this issue, we provide an accessible introduction to TDL for relational systems, and compare the recently published message-passing TNNs using a unified mathematical and graphical notation. Through an intuitive and critical review of the emerging field of TDL, we extract valuable insights into current challenges and exciting opportunities for future development.
翻訳日:2024-02-23 19:10:40 公開日:2024-02-21
# 統合視覚言語モデルにおけるクロスタスク不整合の抽出と対応

Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models ( http://arxiv.org/abs/2303.16133v2 )

ライセンス: Link先を確認
Adyasha Maharana, Amita Kamath, Christopher Clark, Mohit Bansal, Aniruddha Kembhavi(参考訳) 汎用視覚モデルが幅広いタスクでより効果的になるにつれ、それらをサポートするタスク間で一貫性を持つことが不可欠である。 一貫性のないAIモデルは、人間のユーザによって不安定で信頼できないと考えられており、アウトプットに依存する大規模なシステムに組み込むことがより困難である。 異なるモダリティのアウトプットを含む非常に異質なタスク間の一貫性を測定することは、予測が互いに一貫性があるかどうかを判断することが難しいため、難しい。 これは、複数のタスクのテストインスタンスを小さくて意味的に意味のある方法で変更して、ゴールドラベルを変更し、モデルが一貫性があるかどうかを測定するためのアウトラインメトリクスを、タスク間で元のインスタンスと摂動インスタンスをランク付けすることで、コントラストセットを作成するものです。 最先端のビジョン言語モデルは、特に異種タスクにおいて、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。 この問題を軽減するため,大規模なクロスタスクコントラストセット上で計算されたランク相関に基づく補助訓練目標を提案し,下流タスクにおける元の精度を維持しつつ,大規模な統一モデルのマルチタスク一貫性を向上させる。

As general purpose vision models get increasingly effective at a wide set of tasks, it is imperative that they be consistent across the tasks they support. Inconsistent AI models are considered brittle and untrustworthy by human users and are more challenging to incorporate into larger systems that take dependencies on their outputs. Measuring consistency between very heterogeneous tasks that might include outputs in different modalities is challenging since it is difficult to determine if the predictions are consistent with one another. As a solution, we introduce a benchmark dataset, CocoCon, where we create contrast sets by modifying test instances for multiple tasks in small but semantically meaningful ways to change the gold label and outline metrics for measuring if a model is consistent by ranking the original and perturbed instances across tasks. We find that state-of-the-art vision-language models suffer from a surprisingly high degree of inconsistent behavior across tasks, especially for more heterogeneous tasks. To alleviate this issue, we propose a rank correlation-based auxiliary training objective, computed over large automatically created cross-task contrast sets, that improves the multi-task consistency of large unified models while retaining their original accuracy on downstream tasks.
翻訳日:2024-02-23 19:09:55 公開日:2024-02-21
# 光処理によるニオブ三層接合量子のコヒーレンス向上

Improved Coherence in Optically-Defined Niobium Trilayer Junction Qubits ( http://arxiv.org/abs/2306.05883v2 )

ライセンス: Link先を確認
Alexander Anferov, Kan-Heng Lee, Fang Zhao, Jonathan Simon, David I. Schuster(参考訳) ニオブは、超伝導デバイスの中核成分であるジョセフソン接合の動作温度と周波数の増大の利点を提供する。 しかし、既存のニオブプロセスは、現在の標準アルミニウム接合よりも複雑な製法と高い損失によって制限されている。 近年の3層膜形成の進展, 損失誘電体除去法, 現代的な超伝導クビット設計法を組み合わせることで, ニオブ三層接合を再検討し, 光リソグラフィーのみで全ニオブトランスモンを作製する。 我々はマイクロ波領域のデバイスを特徴付け、コヒーレンス時間を最大62〜\mu$sまで測定し、平均クアビット品質係数を10^5$以上としています。 超伝導ギャップエネルギーが高くなると準粒子感度が0.16〜$k以上低下し、アルミニウム接合性能が低下する。 我々のジャンクションプロセスは、標準光学ベースのファウントリープロセスに容易に適用でき、直接統合とスケーラビリティのための新たな道を開き、高温で高周波数の量子デバイスへの道を開く。

Niobium offers the benefit of increased operating temperatures and frequencies for Josephson junctions, which are the core component of superconducting devices. However existing niobium processes are limited by more complicated fabrication methods and higher losses than now-standard aluminum junctions. Combining recent trilayer fabrication advancements, methods to remove lossy dielectrics and modern superconducting qubit design, we revisit niobium trilayer junctions and fabricate all-niobium transmons using only optical lithography. We characterize devices in the microwave domain, measuring coherence times up to $62~\mu$s and an average qubit quality factor above $10^5$: much closer to state-of-the-art aluminum-junction devices. We find the higher superconducting gap energy also results in reduced quasiparticle sensitivity above $0.16~$K, where aluminum junction performance deteriorates. Our junction process is readily applied to standard optical-based foundry processes, opening new avenues for direct integration and scalability, and paves the way for higher-temperature and higher-frequency quantum devices.
翻訳日:2024-02-23 19:00:17 公開日:2024-02-21
# 確率的数値アプローチによるアクティブラーニングのための適応バッチサイズ

Adaptive Batch Sizes for Active Learning A Probabilistic Numerics Approach ( http://arxiv.org/abs/2306.05843v2 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Martin J{\o}rgensen, Xingchen Wan, Vu Nguyen, Harald Oberhauser, Michael A. Osborne(参考訳) アクティブな学習並列化は広く使われているが、一般的には実験全体を通してバッチサイズの修正に依存している。 この固定されたアプローチは、コストとスピードの間のダイナミックなトレードオフのため、非効率である -- 大きなバッチはよりコストがかかり、小さなバッチはウォールタイムのランタイムが遅くなります。 このトレードオフに対処するために,バッチサイズを適応的に変更する新しい確率的数値フレームワークを提案する。 バッチ選択を二次タスクとして組み合わせることで、統合エラー認識アルゴリズムは、事前定義された二次精度目標を満たすために、バッチサイズの自動チューニングを容易にする。 このアプローチは、すべての潜在的バッチサイズにわたる徹底的な検索の必要性を解消する。 また、制約付きアクティブラーニングと制約付き最適化のシナリオにも拡張し、制約違反を正確な要件の削減として解釈し、バッチ構成を順応します。 広範な実験を通じて,本手法は多様なベイズバッチアクティブラーニングおよびベイズ最適化アプリケーションにおいて,学習効率と柔軟性を大幅に向上させることを実証する。

Active learning parallelization is widely used, but typically relies on fixing the batch size throughout experimentation. This fixed approach is inefficient because of a dynamic trade-off between cost and speed -- larger batches are more costly, smaller batches lead to slower wall-clock run-times -- and the trade-off may change over the run (larger batches are often preferable earlier). To address this trade-off, we propose a novel Probabilistic Numerics framework that adaptively changes batch sizes. By framing batch selection as a quadrature task, our integration-error-aware algorithm facilitates the automatic tuning of batch sizes to meet predefined quadrature precision objectives, akin to how typical optimizers terminate based on convergence thresholds. This approach obviates the necessity for exhaustive searches across all potential batch sizes. We also extend this to scenarios with constrained active learning and constrained optimization, interpreting constraint violations as reductions in the precision requirement, to subsequently adapt batch construction. Through extensive experiments, we demonstrate that our approach significantly enhances learning efficiency and flexibility in diverse Bayesian batch active learning and Bayesian optimization applications.
翻訳日:2024-02-23 18:59:57 公開日:2024-02-21
# mc-nn:インフルエンザaウイルス宿主および抗原型予測のためのエンドツーエンドマルチチャネルニューラルネットワークアプローチ

MC-NN: An End-to-End Multi-Channel Neural Network Approach for Predicting Influenza A Virus Hosts and Antigenic Types ( http://arxiv.org/abs/2306.05587v4 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザは公衆衛生、特に高齢者、幼児、基礎疾患を持つ人々にとって重大な脅威となる。 肺炎などの重篤な症状の出現は、インフルエンザ感染の予防の重要性を強調している。 A型インフルエンザウイルスの宿主および抗原サブタイプの正確な予測は、特に資源に制約のある地域でこの問題に対処するために不可欠である。 本研究では,ヘマグルチニンおよびノイラミニダーゼタンパク質配列からインフルエンザAウイルスの宿主および抗原サブタイプを予測するためのマルチチャネルニューラルネットワークモデルを提案する。 本モデルは,完全タンパク質配列の包括的データセットを用いて訓練し,完全および不完全配列の様々な試験データセットを用いて評価した。 その結果、インフルエンザAウイルスの宿主および抗原サブタイプを全タンパク質配列および部分タンパク質配列から予測するためのマルチチャネルニューラルネットワークの有用性と実用性を示した。

Influenza poses a significant threat to public health, particularly among the elderly, young children, and people with underlying dis-eases. The manifestation of severe conditions, such as pneumonia, highlights the importance of preventing the spread of influenza. An accurate and cost-effective prediction of the host and antigenic sub-types of influenza A viruses is essential to addressing this issue, particularly in resource-constrained regions. In this study, we propose a multi-channel neural network model to predict the host and antigenic subtypes of influenza A viruses from hemagglutinin and neuraminidase protein sequences. Our model was trained on a comprehensive data set of complete protein sequences and evaluated on various test data sets of complete and incomplete sequences. The results demonstrate the potential and practicality of using multi-channel neural networks in predicting the host and antigenic subtypes of influenza A viruses from both full and partial protein sequences.
翻訳日:2024-02-23 18:59:34 公開日:2024-02-21
# LLMにおける時間旅行:大規模言語モデルにおけるデータ汚染の追跡

Time Travel in LLMs: Tracing Data Contamination in Large Language Models ( http://arxiv.org/abs/2308.08493v3 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) データ汚染、すなわち、大規模言語モデル(LLM)のトレーニングデータにおける下流タスクからのテストデータの存在は、他のタスクにおけるLLMの実効性を測定する上で潜在的に大きな問題である。 LLM内のデータ汚染を簡易かつ効果的に識別する手法を提案する。 我々のアプローチは、インスタンスレベルでの潜在的汚染を特定することから始まり、この情報を用いて分割レベルで広範囲の汚染を評価する。 個々のインスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスのランダム長の初期セグメントからなるプロンプト "guided instruction:" を用いて、llmに完了を依頼する。 LLMの出力が参照の後半部分と正確にあるいはほぼ一致する場合、インスタンスは汚染されるとフラグ付けされる。 パーティション全体が汚染されているかどうかを理解するために,2つのアイデアを提案する。 最初のアイデアは、参照インスタンスと平均オーバーラップスコア(ROUGE-LまたはBLEURTで測定される)が、データセットとパーティション名を含まない"ジェネラルインストラクション"に比べて、ガイドされた命令の完了によって統計的に有意に優れている場合、データセットパーティションが汚染されたことを示す。 第2のアイデアは、データセット分割が汚染されているとマークする。 gpt-4に基づく分類器が、コンテキスト内学習プロンプトで、複数の生成された完了を、対応する参照インスタンスの正確/近距離マッチングとしてマークする。 提案手法は,人間の専門家による手作業による評価と対比して,列車や試験・評価の分割を含む7つのデータセットでllmが汚染されているかどうかを92%から100%の精度で検出できる。 さらに, GPT-4はAG News, WNLI, XSumデータセットで汚染されていることが示唆された。

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in measuring LLMs' real effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination at the instance level; using this information, our approach then assesses wider contamination at the partition level. To estimate contamination of individual instances, we employ "guided instruction:" a prompt consisting of the dataset name, partition type, and the random-length initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM's output either exactly or nearly matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE-L or BLEURT) is statistically significantly better with the completions from guided instruction compared to a "general instruction" that does not include the dataset and partition name. The second idea marks a dataset partition as contaminated if a classifier based on GPT-4 with few-shot in-context learning prompt marks multiple generated completions as exact/near-exact matches of the corresponding reference instances. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human experts. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.
翻訳日:2024-02-23 18:51:25 公開日:2024-02-21
# ファンデーションモデルに基づくシステム設計のための分散型ガバナンス駆動アーキテクチャ - 責任のあるAIにおけるブロックチェーンの役割を探る

Decentralised Governance-Driven Architecture for Designing Foundation Model based Systems: Exploring the Role of Blockchain in Responsible AI ( http://arxiv.org/abs/2308.05962v3 )

ライセンス: Link先を確認
Yue Liu, Qinghua Lu, Liming Zhu, Hye-Young Paik(参考訳) 大規模言語モデル(LLM)を含む基礎モデルは、その卓越した能力と幅広いタスクを実行する可能性によって、世界中で注目を集めている。 それでも、ファンデーションモデルに基づくAIシステムが、信頼性を確保し、人間、社会、環境を傷つける可能性のある誤用を防止するために適切に管理されているかどうかを懸念している。 本稿では,財団モデルに基づくAIシステムのガバナンス課題として,意思決定権,インセンティブ,説明責任の3つの基本的側面について挙げる。 さらに、分散ガバナンスを促進する分散型台帳を提供することで、課題に対処するためのアーキテクチャソリューションとしてのブロックチェーンの可能性についても検討する。 基礎モデルに基づくAIシステムにおいて,ブロックチェーンをどのように活用してガバナンスを実現するかを示すアーキテクチャを提案する。

Foundation models including large language models (LLMs) are increasingly attracting interest worldwide for their distinguished capabilities and potential to perform a wide variety of tasks. Nevertheless, people are concerned about whether foundation model based AI systems are properly governed to ensure the trustworthiness and to prevent misuse that could harm humans, society and the environment. In this paper, we identify eight governance challenges of foundation model based AI systems regarding the three fundamental dimensions of governance: decision rights, incentives, and accountability. Furthermore, we explore the potential of blockchain as an architectural solution to address the challenges by providing a distributed ledger to facilitate decentralised governance. We present an architecture that demonstrates how blockchain can be leveraged to realise governance in foundation model based AI systems.
翻訳日:2024-02-23 18:49:29 公開日:2024-02-21
# ブラックボックス変分推論の線形収束:着陸を控えるべきか?

Linear Convergence of Black-Box Variational Inference: Should We Stick the Landing? ( http://arxiv.org/abs/2307.14642v3 )

ライセンス: Link先を確認
Kyurae Kim, Yian Ma, and Jacob R. Gardner(参考訳) 制御変数を持つブラックボックス変分推論(bbvi)、特にスティッキング・ザ・ランディング(stl)推定器は、完全変分族仕様の下で幾何学的(伝統的に「線形」と呼ばれる)に収束する。 特に、不特定変分族を含むSTL推定器の勾配分散の2次境界を証明した。 二次分散条件に関する以前の研究と組み合わさって、これはプロジェクテッド確率勾配勾配を用いたBBVIの収束を直接意味する。 射影作用素に対して、三角スケール行列を持つ領域を考えると、その射影は$\theta(d)$ time で計算可能であり、ここで $d$ は目標後方の次元である。 また,正規閉形式エントロピー勾配推定器の既存解析を改善し,STL推定器との比較を可能にした。

We prove that black-box variational inference (BBVI) with control variates, particularly the sticking-the-landing (STL) estimator, converges at a geometric (traditionally called "linear") rate under perfect variational family specification. In particular, we prove a quadratic bound on the gradient variance of the STL estimator, one which encompasses misspecified variational families. Combined with previous works on the quadratic variance condition, this directly implies convergence of BBVI with the use of projected stochastic gradient descent. For the projection operator, we consider a domain with triangular scale matrices, which the projection onto is computable in $\Theta(d)$ time, where $d$ is the dimensionality of the target posterior. We also improve existing analysis on the regular closed-form entropy gradient estimators, which enables comparison against the STL estimator, providing explicit non-asymptotic complexity guarantees for both.
翻訳日:2024-02-23 18:48:30 公開日:2024-02-21
# 文脈内学習のデコード:大言語モデルにおける表現の神経科学による分析

Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models ( http://arxiv.org/abs/2310.00313v4 )

ライセンス: Link先を確認
Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Rapha\"el Milli\`ere, Ida Momennejad(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。 しかし、この改善のメカニズムはいまだ解明されていない。 本研究では,llm埋め込みとアテンション表現が文脈内学習によってどのように変化し,これらの変化が行動改善を媒介するかについて検討する。 我々は,表現類似度分析(RSA)などの神経科学に触発された手法を採用し,Llama-270BとVicuna 13Bのパラメータ化探索と,関連情報に対する注意度測定のための新しい手法を提案する。 線形回帰と読み解きという2つの条件の事前関係を持つタスクを設計した。 タスク表現における期待される類似性や,ICL前後におけるLCM表現の仮説アライメント,注目度の変化について仮説を立てた。 ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。 この経験的なフレームワークは、潜在表現がどのようにLCMの振る舞いを形作るかという微妙な理解を促進し、将来の研究や実用化に有用なツールや洞察を提供する。

Large language models (LLMs) exhibit remarkable performance improvement through in-context learning (ICL) by leveraging task-specific examples in the input. However, the mechanisms behind this improvement remain elusive. In this work, we investigate how LLM embeddings and attention representations change following in-context-learning, and how these changes mediate improvement in behavior. We employ neuroscience-inspired techniques such as representational similarity analysis (RSA) and propose novel methods for parameterized probing and measuring ratio of attention to relevant vs. irrelevant information in Llama-2 70B and Vicuna 13B. We designed two tasks with a priori relationships among their conditions: linear regression and reading comprehension. We formed hypotheses about expected similarities in task representations and measured hypothesis alignment of LLM representations before and after ICL as well as changes in attention. Our analyses revealed a meaningful correlation between improvements in behavior after ICL and changes in both embeddings and attention weights across LLM layers. This empirical framework empowers a nuanced understanding of how latent representations shape LLM behavior, offering valuable tools and insights for future research and practical applications.
翻訳日:2024-02-23 18:42:16 公開日:2024-02-21
# ReConcile: 異種LDM間の合意によるラウンドテイブル会議の改善

ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs ( http://arxiv.org/abs/2309.13007v2 )

ライセンス: Link先を確認
Justin Chih-Yao Chen, Swarnadeep Saha, Mohit Bansal(参考訳) 大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。 1988年、minsky (society of minds) に動機づけられ、様々な llm エージェントによるラウンドテーブル会議として設計されたマルチエージェントフレームワーク reconcile を提案する。 reconcileは、複数の議論を通じてllmエージェント間の協調的推論を強化し、他のエージェントに回答を改善するよう説得することを学び、より良いコンセンサスにつながる信頼度重み付き投票機構を採用する。 各ラウンドにおいて、reconcileはエージェント間の議論を「議論のプロンプト」を通じて開始する。 (a)前ラウンドの各エージェントが生成したグループ化された回答及び説明 b)信頼スコア、そして (c)他のエージェントを説得するために使用される回答訂正人間の説明のデモンストレーション。 7つのベンチマークによる実験により、reconcileは以前のシングルエージェントとマルチエージェントのベースラインを11.4%上回り、3つのデータセットでgpt-4を上回っても、llmsの推論を大幅に改善している。 ReConcileには、APIベース、オープンソース、ドメイン固有モデルなど、さまざまなエージェントの組み合わせも柔軟に組み込まれており、MATHは8%改善されている。 最後に、ReConcileの個々のコンポーネントを分析し、異なるモデルから派生した多様性がその優れたパフォーマンスに重要であることを示す。 コード: https://github.com/dinobby/reconcile

Large Language Models (LLMs) still struggle with natural language reasoning tasks. Motivated by the society of minds (Minsky, 1988), we propose ReConcile, a multi-model multiagent framework designed as a round table conference among diverse LLM agents. ReConcile enhances collaborative reasoning between LLM agents via multiple rounds of discussion, learning to convince other agents to improve their answers, and employing a confidence-weighted voting mechanism that leads to a better consensus. In each round, ReConcile initiates discussion between agents via a 'discussion prompt' that consists of (a) grouped answers and explanations generated by each agent in the previous round, (b) their confidence scores, and (c) demonstrations of answer-rectifying human explanations, used for convincing other agents. Experiments on seven benchmarks demonstrate that ReConcile significantly improves LLMs' reasoning -- both individually and as a team -- surpassing prior single-agent and multi-agent baselines by up to 11.4% and even outperforming GPT-4 on three datasets. ReConcile also flexibly incorporates different combinations of agents, including API-based, open-source, and domain-specific models, leading to an 8% improvement on MATH. Finally, we analyze the individual components of ReConcile, demonstrating that the diversity originating from different models is critical to its superior performance. Code: https://github.com/dinobby/ReConcile
翻訳日:2024-02-23 18:41:04 公開日:2024-02-21
# 貴様らはどうだ! LLMテキスト検出に影響を及ぼす指示におけるタスク指向制約

How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection ( http://arxiv.org/abs/2311.08369v2 )

ライセンス: Link先を確認
Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki(参考訳) LLM(Large Language Models)の誤用に対処するため,最近の多くの研究でLLM生成テキスト検出器を有望な性能で提案している。 ユーザがLSMにテキストを生成するように指示すると、その命令はユーザーの要求に応じて異なる制約を含むことができる。 しかし、近年の研究では、LLM検出のためのデータセットを作成する際に、このような多様な命令パターンをカバーしていない。 本稿では,タスク指向の制約 – 命令に自然に含まれ,検出回避とは無関係な制約 – でさえ,既存の検出器が検出性能に大きなばらつきをもたらすことを発見した。 学生エッセイの執筆を現実的なドメインとして重視し,エッセイ品質の要因に基づいてタスク指向の制約を手作業で作成する。 このような制約のある命令によって生成されたテキストにおける電流検出性能の標準偏差(sd)は、テキストを複数回生成したり、命令をパラフレージングしたりすることで、(sdが14.4 f1-scoreまで)かなり大きい。 さらに,LLMの高命令追従能力は,そのような制約が検出性能に大きな影響を与えることを示唆している。

To combat the misuse of Large Language Models (LLMs), many recent studies have presented LLM-generated-text detectors with promising performance. When users instruct LLMs to generate texts, the instruction can include different constraints depending on the user's need. However, most recent studies do not cover such diverse instruction patterns when creating datasets for LLM detection. In this paper, we find that even task-oriented constraints -- constraints that would naturally be included in an instruction and are not related to detection-evasion -- cause existing detectors to have a large variance in detection performance. We focus on student essay writing as a realistic domain and manually create task-oriented constraints based on several factors for essay quality. Our experiments show that the standard deviation (SD) of current detector performance on texts generated by an instruction with such a constraint is significantly larger (up to an SD of 14.4 F1-score) than that by generating texts multiple times or paraphrasing the instruction. Furthermore, our analysis indicates that the high instruction-following ability of LLMs fosters the large impact of such constraints on detection performance.
翻訳日:2024-02-23 18:21:37 公開日:2024-02-21
# スケーリング法則のナビゲート:適応型モデルトレーニングにおける計算最適性

Navigating Scaling Laws: Compute Optimality in Adaptive Model Training ( http://arxiv.org/abs/2311.03233v2 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Gregor Bachmann, Imanol Schlag, Thomas Hofmann(参考訳) 近年、ディープラーニングの最先端技術は、大量のデータで事前学習された非常に大きなモデルによって支配されている。 このパラダイムは非常に単純で、より多くの計算リソース(最適)に投資することでパフォーマンスが向上し、さらに予測可能なものになります。 これは‘計算最適化’モデルの概念、すなわち、トレーニング中に与えられた計算レベルを最適に割り当ててパフォーマンスを最大化するモデルに繋がる。 本研究では,「適応的」モデル,すなわちトレーニング中に形状を変えることができるモデルを実現することにより,最適性の概念を拡張した。 これにより、基盤となるスケーリング法則の間を最適に横切る適応モデルを設計し、その「静的」法則を上回り、所定の目標性能に達するために必要な計算量が大幅に削減できる。 我々のアプローチは、モダリティと異なる形状パラメータをまたいで一般化する。

In recent years, the state-of-the-art in deep learning has been dominated by very large models that have been pre-trained on vast amounts of data. The paradigm is very simple: investing more computational resources (optimally) leads to better performance, and even predictably so; neural scaling laws have been derived that accurately forecast the performance of a network for a desired level of compute. This leads to the notion of a `compute-optimal' model, i.e. a model that allocates a given level of compute during training optimally to maximize performance. In this work, we extend the concept of optimality by allowing for an `adaptive' model, i.e. a model that can change its shape during training. By doing so, we can design adaptive models that optimally traverse between the underlying scaling laws and outpace their `static' counterparts, leading to a significant reduction in the required compute to reach a given target performance. We show that our approach generalizes across modalities and different shape parameters.
翻訳日:2024-02-23 18:19:42 公開日:2024-02-21
# 結合構造を改良した低損失ミリ波共振器

Low-loss Millimeter-wave Resonators with an Improved Coupling Structure ( http://arxiv.org/abs/2311.01670v3 )

ライセンス: Link先を確認
Alexander Anferov, Shannon P. Harvey, Fanghui Wan, Kan-Heng Lee, Jonathan Simon and David I. Schuster(参考訳) ミリ波超伝導共振器は、量子デバイスコヒーレンスを新しい周波数領域で研究するのに有用である。 しかし、ミリ波信号を2次元構造に結合する堅牢で信頼性の高い手法がなければ、共振器の改善は困難である。 矩形導波路と平面スロットライン導波路を結合したテープ状遷移構造を14GHz以上の0.5dB効率で開発し,それをW帯(75-110GHz)の地中シールド共振器の測定に用いる。 共振器を放射損失から分離し, 単一光子品質係数を10^5$以上, 2レベル損失限界を10^6$以上と一貫して達成し, 酸化物除去処理の有効性を検証することで損失を低減した。 これらの値は、Wバンドで以前報告されたものより4~5倍高く、典型的な平面マイクロ波共振器に近い。 これらのオンチップミリ波デバイスによって示される損失は、異なる周波数領域で量子デコヒーレンスに新しい光を当て、高周波検出器の選択性を高め、ミリ波を結合したハイブリッド量子実験に新たな可能性をもたらす。

Millimeter-wave superconducting resonators are a useful tool for studying quantum device coherence in a new frequency domain. However, improving resonators is difficult without a robust and reliable method for coupling millimeter-wave signals to 2D structures. We develop and characterize a tapered transition structure coupling a rectangular waveguide to a planar slotline waveguide with better than 0.5 dB efficiency over 14 GHz, and use it to measure ground-shielded resonators in the W band (75 - 110 GHz). Having decoupled the resonators from radiative losses, we consistently achieve single-photon quality factors above $10^5$, with a two-level-system loss limit above $10^6$, and verify the effectiveness of oxide removal treatments to reduce loss. These values are 4-5 times higher than those previously reported in the W band, and much closer to typical planar microwave resonators. The improved losses demonstrated by these on-chip millimeter-wave devices shed new light on quantum decoherence in a different frequency regime, offer increased selectivity for high-frequency detectors, and enables new possibilities for hybrid quantum experiments integrating millimeter-wave frequencies.
翻訳日:2024-02-23 18:19:17 公開日:2024-02-21
# Open-Vocabulary Caption Hallucinations の誤用

Mitigating Open-Vocabulary Caption Hallucinations ( http://arxiv.org/abs/2312.03631v2 )

ライセンス: Link先を確認
Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar Averbuch-Elor(参考訳) 近年,イメージコンディショルドテキスト生成が急速に進展しているが,画像キャプションは依然として幻覚の根本的な問題,すなわち与えられた画像から推測できないスプリアス詳細の生成に苦しめられている。 既存の方法は、画像キャプションにおける幻覚を緩和または評価するために、主に閉語彙オブジェクトリストを使用しており、実際に発生するほとんどの種類の幻覚を無視している。 この目的のために,開語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案し,その存在を定量化し,その幻覚を緩和する。 弊社のOpenCHAIRベンチマークは、生成基礎モデルを利用して、オープン語彙キャプション幻覚の評価を行い、CHAIRベンチマークを多様性と精度の両方で上回っている。 開語彙の幻覚をシーケンスレベルで緩和するために,強化学習の進歩を生かしたMOCHaを提案する。 当社の多目的報酬機能は,厳格な監督を必要とせずに,世代間の忠実性と妥当性のトレードオフを明示的に目標としています。 MOCHaは、OpenCHAIRベンチマークやその他の既存のメトリクスによってキャプチャされるように、さまざまなイメージキャプションモデルを改善します。 コードとモデルをリリースします。

While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, namely, the generation of spurious details that cannot be inferred from the given image. Existing methods largely use closed-vocabulary object lists to mitigate or evaluate hallucinations in image captioning, ignoring most types of hallucinations that occur in practice. To this end, we propose a framework for addressing hallucinations in image captioning in the open-vocabulary setting, including quantifying their presence and optimizing to mitigate such hallucinations. Our OpenCHAIR benchmark leverages generative foundation models to evaluate open-vocabulary caption hallucinations, surpassing the popular CHAIR benchmark in both diversity and accuracy. To mitigate open-vocabulary hallucinations at the sequence level, we propose MOCHa, an approach harnessing advancements in reinforcement learning. Our multi-objective reward function explicitly targets the trade-off between fidelity and adequacy in generations without requiring any strong supervision. MOCHa improves a large variety of image captioning models, as captured by our OpenCHAIR benchmark and other existing metrics. We will release our code and models.
翻訳日:2024-02-23 18:09:06 公開日:2024-02-21
# Rumour Verificationのためのゼロショット抽象記述の生成

Generating Zero-shot Abstractive Explanations for Rumour Verification ( http://arxiv.org/abs/2401.12713v2 )

ライセンス: Link先を確認
Iman Munire Bilal, Preslav Nakov, Rob Procter, Maria Liakata(参考訳) ソーシャルメディアにおける噂検証の課題は、それに起因する会話スレッドに基づいてクレームの正確性を評価することである。 これまでの研究では、veracityラベルの予測に重点を置いてきたが、ここでは、噂のveracityのモデル中心のフリーテキスト説明を生成するタスクを再構成する。 アプローチはモデル非依存であり、任意のモデルに一般化する。 本稿では,新しいGNNに基づく噂検証モデルを提案する。 まず、スレッド内で最も重要なポストをスコアするためにポストホックな説明可能性法を適用し、次にこれらのポストを使用して意見誘導要約を用いて情報的説明を生成する。 説明要約のインフォメーション性を評価するために,大規模言語モデル(llm)の少数学習能力を活用した。 実験の結果,LLMは要約評価において人間と類似の一致を示すことができた。 重要な点として,説明的要約がより有益で,スレッドの上位ランクのポストを単に使うよりも,予測された噂の有効性を反映することを示す。

The task of rumour verification in social media concerns assessing the veracity of a claim on the basis of conversation threads that result from it. While previous work has focused on predicting a veracity label, here we reformulate the task to generate model-centric free-text explanations of a rumour's veracity. The approach is model agnostic in that it generalises to any model. Here we propose a novel GNN-based rumour verification model. We follow a zero-shot approach by first applying post-hoc explainability methods to score the most important posts within a thread and then we use these posts to generate informative explanations using opinion-guided summarisation. To evaluate the informativeness of the explanatory summaries, we exploit the few-shot learning capabilities of a large language model (LLM). Our experiments show that LLMs can have similar agreement to humans in evaluating summaries. Importantly, we show explanatory abstractive summaries are more informative and better reflect the predicted rumour veracity than just using the highest ranking posts in the thread.
翻訳日:2024-02-23 18:04:17 公開日:2024-02-21
# MARIO: MAth Reasoning with Code Interpreter Output -- 再現可能なパイプライン

MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline ( http://arxiv.org/abs/2401.08190v3 )

ライセンス: Link先を確認
Minpeng Liao, Wei Luo, Chengxi Li, Jing Wu, Kai Fan(参考訳) 大規模言語モデル(llm)は自然言語理解タスクにおいてかなりの進歩を遂げてきたが、真の人工知能に到達する前には、特に数学的推論能力の欠点に関して橋渡しのギャップが残っている。 我々は、次のトークンの確率を予測することに焦点を当てたLLMトレーニングの本質的な性質が、データ駆動と理論の両方の観点から正確な計算を必要とする数学的推論を効果的にモデル化する上での課題を提起する。 本稿では,データランドスケープを豊かにし,pythonコードインタプリタを活用した新しい数学データセットを導入することで,この課題に対処する。 このデータセットはGSM8KとMATHから派生したもので、オリジナルのGSM8Kトレーニングセットのエラーが修正されたGPT-4アノテーション、ヒューマンレビュー、自己学習プロセスの組み合わせによってさらに洗練されている。 さらに,GSM8KおよびMATHデータセット上での 7B パラメータ LLM の性能向上に寄与する,数学固有の LLM の微調整のための仮的かつ容易に複製可能なプロトコルを提案する。 LLMにおける数学的推論の分野を推し進めることにコミットしており、最終的には、データ生成/トレーニング/推論のためのソースコードを作成し、モデルチェックポイントは、 \url{https://github.com/MARIO-Math-Reasoning/MARIO}で公開しています。 これがコミュニティ内のさらなる研究と開発を促進することを願っています。

Large language models (LLMs) have seen considerable advancements in natural language understanding tasks, yet there remains a gap to bridge before attaining true artificial general intelligence, especially concerning shortcomings in mathematical reasoning capabilities. We postulate that the inherent nature of LLM training, which focuses on predicting probabilities of next token, presents challenges in effectively modeling mathematical reasoning that demands exact calculations, both from data-driven and theoretical standpoints. In this paper, we address this challenge by enriching the data landscape and introducing a novel math dataset, enhanced with a capability to utilize a Python code interpreter. This dataset is derived from GSM8K and MATH and has been further refined through a combination of GPT-4 annotations, human review, and self-training processes, where the errors in the original GSM8K training set have been fixed. Additionally, we propose a tentative, easily replicable protocol for the fine-tuning of math-specific LLMs, which has led to a significant improvement in the performance of a 7B-parameter LLM on the GSM8K and MATH datasets. We are committed to advancing the field of mathematical reasoning in LLMs and, to that end, we have made source code for data generation / training / inference, and the model checkpoints publicly available at \url{https://github.com/MARIO-Math-Reasoning/MARIO}. We hope this will facilitate further research and development within the community.
翻訳日:2024-02-23 18:03:37 公開日:2024-02-21
# 自己イメージを用いたマルチモーダルモデルを用いた実効的ユニモーダル推論

Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination ( http://arxiv.org/abs/2401.08025v2 )

ライセンス: Link先を確認
Syeda Nahida Akter, Aman Madaan, Sangwu Lee, Yiming Yang, Eric Nyberg(参考訳) 視覚言語モデル(vlms)のポテンシャルは、複雑なテキストベースの問題、特にこれらの問題が視覚表現の恩恵を受ける可能性がある場合、しばしば未使用のままである。 1) 問題から視覚図を作成し,(2) 解決に必要なステップを導出することにより, 複雑なテキストベースの問題を解決する人間の能力と調和し, 自己イマジネを提案する。 我々は、単一の視覚言語モデル(VLM)を利用して、HTMLを用いて質問の構造化表現を生成し、次にHTMLを画像として描画し、最後に同じVLMを使用して質問と画像の両方を用いて質問に答える。 当社のアプローチでは、追加のトレーニングデータやトレーニングは必要ありません。 我々は,3つの数学タスクと9つの汎用推論タスクに対して,最新式 (LLAVA-1.5 と GEMINI PRO) VLM を用いて評価を行った。 LLAVA-1.5 と GEMINI PRO の全ての数学タスク(平均 GSM8K: +3.1%, ASDIV: +3.2%, SVAMP: +6.9%)における性能向上と,汎用推論タスクの大部分が平均 3.2% から 6.0 % に向上する。

The potential of Vision-Language Models (VLMs) often remains underutilized in handling complex text-based problems, particularly when these problems could benefit from visual representation. Resonating with humans' ability to solve complex text-based problems by (1) creating a visual diagram from the problem and (2) deducing what steps they need to take to solve it, we propose Self-Imagine. We leverage a single Vision-Language Model (VLM) to generate a structured representation of the question using HTML, then render the HTML as an image, and finally use the same VLM to answer the question using both the question and the image. Our approach does not require any additional training data or training. We evaluate our approach on three mathematics tasks and nine general-purpose reasoning tasks using state-of-the-art (LLAVA-1.5 and GEMINI PRO) VLMs. Our approach boosts the performance of LLAVA-1.5 and GEMINI PRO on all math tasks (on average GSM8K: +3.1%; ASDIV: +3.2%; SVAMP: +6.9%) and the majority of the general-purpose reasoning tasks by 3.2% to 6.0% on average.
翻訳日:2024-02-23 18:03:08 公開日:2024-02-21
# 言語モデルのためのきめ細かい幻覚検出と編集

Fine-grained Hallucination Detection and Editing for Language Models ( http://arxiv.org/abs/2401.06855v3 )

ライセンス: Link先を確認
Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, Hannaneh Hajishirzi(参考訳) 大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向がある。 本稿では,幻覚の包括的分類法を紹介し,幻覚は様々な形態で表され,それぞれが事実性を検証するために様々な段階の注意深い評価を必要とすると主張する。 そこで本研究では,各領域にまたがる3つのLM出力に対して,約1千個の微粒化人間の判断を含む,新しい評価ベンチマークFavaBenchを提案する。 分析の結果,ChatGPT と Llama2-Chat (70B, 7B) は多種多様な幻覚を示すことが明らかとなった。 合成データを慎重に作成し,細粒度幻覚の検出と修正を行い,検索提示型lmであるfavaを訓練した。 評価の結果, FAVAは, 微粒な幻覚検出においてChatGPTとGPT-4を著しく上回り, FAVAが提案する編集により, LM生成テキストの事実性が向上した。

Large language models (LMs) are prone to generate factual errors, which are often called hallucinations. In this paper, we introduce a comprehensive taxonomy of hallucinations and argue that hallucinations manifest in diverse forms, each requiring varying degrees of careful assessments to verify factuality. We propose a novel task of automatic fine-grained hallucination detection and construct a new evaluation benchmark, FavaBench, that includes about one thousand fine-grained human judgments on three LM outputs across various domains. Our analysis reveals that ChatGPT and Llama2-Chat (70B, 7B) exhibit diverse types of hallucinations in the majority of their outputs in information-seeking scenarios. We train FAVA, a retrieval-augmented LM by carefully creating synthetic data to detect and correct fine-grained hallucinations. On our benchmark, our automatic and human evaluations show that FAVA significantly outperforms ChatGPT and GPT-4 on fine-grained hallucination detection, and edits suggested by FAVA improve the factuality of LM-generated text.
翻訳日:2024-02-23 18:02:05 公開日:2024-02-21
# ビジネス論理行動の分類校正によるフレーダ防止における意思決定のデカップリング

Decoupling Decision-Making in Fraud Prevention through Classifier Calibration for Business Logic Action ( http://arxiv.org/abs/2401.05240v2 )

ライセンス: Link先を確認
Emanuele Luzio and Moacir Antonelli Ponti and Christian Ramirez Arevalo and Luis Argerich(参考訳) マシンラーニングモデルは一般的に、ビジネスコンテキストにおける既知の人口特徴分布に基づいて、分類器の作成のような特定のターゲットにフォーカスする。 しかし、個々の特徴を計算するモデルは時間とともに適応して精度を向上し、デカップリングの概念を導入している。 我々は、機械学習(ML)分類器をビジネスロジックフレームワーク内のスコアベースのアクションから切り離す戦略としてキャリブレーション戦略を使用する。 これらの戦略を評価するために、実世界のビジネスシナリオと複数のMLモデルを用いて比較分析を行う。 本研究は,デカップリングの取り組みを最適化しようとする実践者に対して,アプローチのトレードオフとパフォーマンス上の意味を強調した。 特に、トレーニングとテストデータにシフトがあるシナリオでは、isotonicとbetaのキャリブレーション方法が際立っている。

Machine learning models typically focus on specific targets like creating classifiers, often based on known population feature distributions in a business context. However, models calculating individual features adapt over time to improve precision, introducing the concept of decoupling: shifting from point evaluation to data distribution. We use calibration strategies as strategy for decoupling machine learning (ML) classifiers from score-based actions within business logic frameworks. To evaluate these strategies, we perform a comparative analysis using a real-world business scenario and multiple ML models. Our findings highlight the trade-offs and performance implications of the approach, offering valuable insights for practitioners seeking to optimize their decoupling efforts. In particular, the Isotonic and Beta calibration methods stand out for scenarios in which there is shift between training and testing data.
翻訳日:2024-02-23 18:00:53 公開日:2024-02-21
# 圧縮深部画像超解像モデル

Compressing Deep Image Super-resolution Models ( http://arxiv.org/abs/2401.00523v2 )

ライセンス: Link先を確認
Yuxuan Jiang, Jakub Nawala, Fan Zhang, and David Bull(参考訳) 画像超解像 (SR) の文脈において深層学習技術が適用され, 再現性能の面で顕著な進歩を遂げている。 既存の手法では、非常に複雑なモデル構造を採用しており、大きなモデルサイズと遅い推論速度をもたらす。 これはしばしば高エネルギー消費につながり、実用用途への採用を制限する。 この問題に対処するために、ディープSRモデルを圧縮するための3段階のワークフローを使用し、メモリ要求を大幅に削減する。 新たに設計した蒸留損失を用いた教師・生徒の知識蒸留によって復元性能が維持されている。 この手法をSwinIRとEDSRという2つの画像超解像ネットワークに適用し,その効果を実証した。 結果、SwinIRminiとEDSRminiはモデルサイズと浮動小数点演算(FLOP)をそれぞれ89%と96%削減した。 また、オリジナルのモデルや一般的なSRアプローチと比較して、競争力のある超解像性能を維持している。 これら2つの軽量SRアプローチのソースコードと事前訓練されたモデルは、https://pikapi22.github.io/CDISM/でリリースされている。

Deep learning techniques have been applied in the context of image super-resolution (SR), achieving remarkable advances in terms of reconstruction performance. Existing techniques typically employ highly complex model structures which result in large model sizes and slow inference speeds. This often leads to high energy consumption and restricts their adoption for practical applications. To address this issue, this work employs a three-stage workflow for compressing deep SR models which significantly reduces their memory requirement. Restoration performance has been maintained through teacher-student knowledge distillation using a newly designed distillation loss. We have applied this approach to two popular image super-resolution networks, SwinIR and EDSR, to demonstrate its effectiveness. The resulting compact models, SwinIRmini and EDSRmini, attain an 89% and 96% reduction in both model size and floating-point operations (FLOPs) respectively, compared to their original versions. They also retain competitive super-resolution performance compared to their original models and other commonly used SR approaches. The source code and pre-trained models for these two lightweight SR approaches are released at https://pikapi22.github.io/CDISM/.
翻訳日:2024-02-23 17:59:04 公開日:2024-02-21
# rag-fusion: 検索型生成の新しいアプローチ

RAG-Fusion: a New Take on Retrieval-Augmented Generation ( http://arxiv.org/abs/2402.03367v2 )

ライセンス: Link先を確認
Zackary Rackauckas(参考訳) Infineonは、エンジニア、アカウントマネージャ、顧客が迅速に製品情報を取得する必要性を特定している。 従来,この問題は検索強化型チャットボット(RAG)で対処されてきたが,本研究では新たに普及したRAG-Fusion法を用いて評価した。 RAG-Fusion は RAG と reciprocal rank fusion (RRF) を組み合わせて複数のクエリを生成し、それらを相互スコアに再分類し、文書とスコアを融合させる。 精度,関連性,包括性に関する回答を手動で評価することで,RAG-Fusionは,生成したクエリをさまざまな視点からコンテキスト化することによって,正確かつ包括的な回答を提供することができた。 しかし、生成したクエリと元のクエリとの関連性が不十分な場合、いくつかの回答はトピックから逸脱した。 この研究は、人工知能(ai)と自然言語処理(nlp)のアプリケーションにおける重要な進歩を示し、グローバルかつ多産業のコンテキストにおけるトランスフォーメーションを実証する。

Infineon has identified a need for engineers, account managers, and customers to rapidly obtain product information. This problem is traditionally addressed with retrieval-augmented generation (RAG) chatbots, but in this study, I evaluated the use of the newly popularized RAG-Fusion method. RAG-Fusion combines RAG and reciprocal rank fusion (RRF) by generating multiple queries, reranking them with reciprocal scores and fusing the documents and scores. Through manually evaluating answers on accuracy, relevance, and comprehensiveness, I found that RAG-Fusion was able to provide accurate and comprehensive answers due to the generated queries contextualizing the original query from various perspectives. However, some answers strayed off topic when the generated queries' relevance to the original query is insufficient. This research marks significant progress in artificial intelligence (AI) and natural language processing (NLP) applications and demonstrates transformations in a global and multi-industry context.
翻訳日:2024-02-23 17:53:49 公開日:2024-02-21
# 非社会的知性:AGI談話の多元的・民主的・参加的調査

Unsocial Intelligence: a Pluralistic, Democratic, and Participatory Investigation of AGI Discourse ( http://arxiv.org/abs/2401.13142v2 )

ライセンス: Link先を確認
Borhane Blili-Hamelin, Leif Hancox-Li, Andrew Smart(参考訳) 人間の知性と競合する機械の夢は、その誕生以来AIの分野を形成してきた。 しかし、人間レベルのAIや人工知能(AGI)の意味については、まだ合意されていない。 我々は、AGIと人間レベルのAIの影響力のある概念によってなされた、社会的、政治的、倫理的な前提について検討する。 次に、フェミニスト、sts、社会科学の奨学金として、人間と機械の両方における知能の政治的および社会的特性について論じ、多元的で民主的で参加的な概念を擁護する。 AGIや人間レベルのAIを技術的あるいは価値中立のトピックとして扱うことは、政治的、倫理的、疫学的な害をもたらすと我々は主張する。 agiは、エンコードする価値、彼らが含むか排除するか、認識論的正義に対する見解に明示的な注意を払わずに開発すべきではない。

Dreams of machines that rival human intelligence have shaped the field of AI since its inception. Yet there remains no agreed-upon conception of what human-level AI or artificial general intelligence (AGI) means. We investigate key social, political, and ethical assumptions made by influential conceptions of AGI and human-level AI. We then draw on feminist, STS, and social science scholarship on the political and social character of intelligence in both humans and machines to defend a pluralistic, democratic, and participatory conception of the topic. We argue that framing AGI or human-level AI as a technical or value-neutral topic leads to political, ethical, and epistemic harm. AGI should not be developed without explicit attention to the values they encode, the people they include or exclude, and a view toward epistemic justice.
翻訳日:2024-02-23 17:50:23 公開日:2024-02-21
# バリューバイアスを探る - LLMはどのように理想に向かって進化するか

Exploring Value Biases: How LLMs Deviate Towards the Ideal ( http://arxiv.org/abs/2402.11005v2 )

ライセンス: Link先を確認
Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz(参考訳) 大規模言語モデル(llm)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。 LLMの応答の非決定的メカニズムを理解することは、それらの性能を説明し、現実のアプリケーションにおけるバイアスを識別するのに不可欠である。 これは人間の研究と類似しており、そのような不注意な反応をサンプリングと呼ぶ。 本研究では,LLMのサンプリングを値バイアスに照らして検討し,LLMのサンプリングが高値オプションを好む傾向があることを示す。 値バイアスは、LLMで表される理想値への最も可能性が高い応答のこのシフトに対応する。 実際、この効果は、コンテキスト内プロンプトを通じて学習した新しいエンティティでも再現できる。 このバイアスは予期せぬ場所で現れ、例を挙げるなど、関連するアプリケーションシナリオに影響を及ぼすことを示す。 以上の結果から,LLMにおける価値バイアスは,人間の研究結果と同様,異なるカテゴリで強いことが示唆された。

Large-Language-Models (LLMs) are deployed in a wide range of applications, and their response has an increasing social impact. Understanding the non-deliberate(ive) mechanism of LLMs in giving responses is essential in explaining their performance and discerning their biases in real-world applications. This is analogous to human studies, where such inadvertent responses are referred to as sampling. We study this sampling of LLMs in light of value bias and show that the sampling of LLMs tends to favour high-value options. Value bias corresponds to this shift of response from the most likely towards an ideal value represented in the LLM. In fact, this effect can be reproduced even with new entities learnt via in-context prompting. We show that this bias manifests in unexpected places and has implications on relevant application scenarios, like choosing exemplars. The results show that value bias is strong in LLMs across different categories, similar to the results found in human studies.
翻訳日:2024-02-23 17:43:57 公開日:2024-02-21
# CodeMind: コード推論のための大規模言語モデルに挑戦するフレームワーク

CodeMind: A Framework to Challenge Large Language Models for Code Reasoning ( http://arxiv.org/abs/2402.09664v3 )

ライセンス: Link先を確認
Changshu Liu, Shizhuo Dylan Zhang, Reyhaneh Jabbarvand(参考訳) コード合成にLLM(Large Language Models)を評価するためにテストパスに頼ることは、不公平な評価やデータ漏洩を伴うモデルの促進につながる可能性がある。 代替として,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。 CodeMindは現在、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。 最初の2つは、任意のコードやモデルが正しく合成できるコードの実行出力を予測するモデルを評価する。 第3の方法は、llmが指定された期待される動作を実装する程度を評価する。 CodeMindを用いた5つのベンチマークにおける9つのLLMの広範囲な評価は、LLMが制御フロー構造をかなり追従していることを示し、一般に、入力がどのように出力に進化するかを説明している。 しかし、高い複雑性、非自明な論理演算子と算術演算子、非プリミティブ型、api呼び出しを持つコードではパフォーマンスが低下する。 さらに、関連づけられた仕様推論(コード合成に必須)は実行推論(テストやデバッグのような幅広いプログラミングタスクに必須)を含まないことを観察する。

Solely relying on test passing to evaluate Large Language Models (LLMs) for code synthesis may result in unfair assessment or promoting models with data leakage. As an alternative, we introduce CodeMind, a framework designed to gauge the code reasoning abilities of LLMs. CodeMind currently supports three code reasoning tasks: Independent Execution Reasoning (IER), Dependent Execution Reasoning (DER), and Specification Reasoning (SR). The first two evaluate models to predict the execution output of an arbitrary code or code the model could correctly synthesize. The third one evaluates the extent to which LLMs implement the specified expected behavior. Our extensive evaluation of nine LLMs across five benchmarks in two different programming languages using CodeMind shows that LLMs fairly follow control flow constructs and, in general, explain how inputs evolve to output, specifically for simple programs and the ones they can correctly synthesize. However, their performance drops for code with higher complexity, non-trivial logical and arithmetic operators, non-primitive types, and API calls. Furthermore, we observe that, while correlated, specification reasoning (essential for code synthesis) does not imply execution reasoning (essential for broader programming tasks such as testing and debugging): ranking LLMs based on test passing can be different compared to code reasoning.
翻訳日:2024-02-23 17:41:50 公開日:2024-02-21
# シャドーインバージョンによる量子トモグラフィの最適化

Optimising quantum tomography via shadow inversion ( http://arxiv.org/abs/2402.06727v2 )

ライセンス: Link先を確認
Andrea Caprotti, Joshua Morris, Borivoje Daki\'c(参考訳) 量子情報理論において、観測可能量の正確な推定は、量子情報処理において重要であり、計算および通信プロトコルにおいて重要な役割を果たす。 本研究は,従来のシャドウの反転マップにおける未利用資源を活用して,追加のオーバーヘッドを伴わずに対象オブザーバブルの推定コストを大幅に改善する手法を提案する。 シャドウ反転の同次空間における計算と追加自由度を最適化するための一般化された枠組みは、様々な短期問題に適応する可能性がある。 局所測定戦略の特別の場合では、サンプル複雑性と標準アプローチの指数的な分離につながる実現可能な最適化を示し、例外的に、局所測定のための最適化後処理の非自明な例を示し、グローバルなクリフォード影と同じ効率を達成する。

In quantum information theory, the accurate estimation of observables is pivotal for quantum information processing, playing a crucial role in compute and communication protocols. This work introduces a novel technique for estimating such objects, leveraging an underutilised resource in the inversion map of classical shadows that greatly refines the estimation cost of target observables without incurring any additional overhead. A generalised framework for computing and optimising additional degrees of freedom in the homogeneous space of the shadow inversion is given that may be adapted to a variety of near-term problems. In the special case of local measurement strategies we show feasible optimisation leading to an exponential separation in sample complexity versus the standard approach and in an exceptional case we give non-trivial examples of optimised post-processing for local measurements, achieving the same efficiency as the global Cliffords shadows.
翻訳日:2024-02-23 17:40:15 公開日:2024-02-21
# ニューロシンボリック統合のためのシンプルかつ効果的な伝達学習

Simple and Effective Transfer Learning for Neuro-Symbolic Integration ( http://arxiv.org/abs/2402.14047v1 )

ライセンス: Link先を確認
Alessandro Daniele, Tommaso Campari, Sagar Malhotra and Luciano Serafini(参考訳) 近年,ディープラーニング(DL)技術は目覚ましい成功を収めている。 しかし、推論タスクを一般化し実行する能力は依然として課題である。 この問題の潜在的な解決策はNeuro-Symbolic Integration (NeSy)であり、ニューラルアプローチとシンボリック推論を組み合わせる。 これらの手法のほとんどは、認識をシンボルにマッピングするニューラルネットワークと、下流タスクの出力を予測する論理的論理的推論を利用する。 これらの手法は、完全にニューラルネットワークアーキテクチャよりも優れた一般化能力を示す。 しかし、コンバージェンスが遅い、複雑な知覚課題による学習困難、局所ミニマへのコンバージェンスなど、いくつかの問題に苦しんでいる。 本稿では,この問題を改善するための単純かつ効果的な手法を提案する。 キーとなるアイデアは、下流タスクでニューラルモデルを事前訓練することだ。 次に、NeSyモデルを転送学習により同一タスクでトレーニングし、事前に訓練されたネットワークから知覚部分の重みを注入する。 私たちの研究の重要な観察は、ニューラルネットワークが認識からシンボルへのマッピングを完全に学習しながら、記号部分のレベルでのみ一般化できないことです。 我々は、様々なSOTA NeSyメソッドとデータセットでトレーニング戦略を検証し、上記の問題の一貫した改善を実証した。

Deep Learning (DL) techniques have achieved remarkable successes in recent years. However, their ability to generalize and execute reasoning tasks remains a challenge. A potential solution to this issue is Neuro-Symbolic Integration (NeSy), where neural approaches are combined with symbolic reasoning. Most of these methods exploit a neural network to map perceptions to symbols and a logical reasoner to predict the output of the downstream task. These methods exhibit superior generalization capacity compared to fully neural architectures. However, they suffer from several issues, including slow convergence, learning difficulties with complex perception tasks, and convergence to local minima. This paper proposes a simple yet effective method to ameliorate these problems. The key idea involves pretraining a neural model on the downstream task. Then, a NeSy model is trained on the same task via transfer learning, where the weights of the perceptual part are injected from the pretrained network. The key observation of our work is that the neural network fails to generalize only at the level of the symbolic part while being perfectly capable of learning the mapping from perceptions to symbols. We have tested our training strategy on various SOTA NeSy methods and datasets, demonstrating consistent improvements in the aforementioned problems.
翻訳日:2024-02-23 17:36:36 公開日:2024-02-21
# 医用画像における低位・局所低位マトリックス近似の進歩:系統的文献レビューと今後の展望

Advancing Low-Rank and Local Low-Rank Matrix Approximation in Medical Imaging: A Systematic Literature Review and Future Directions ( http://arxiv.org/abs/2402.14045v1 )

ライセンス: Link先を確認
Sisipho Hamlomo, Marcellin Atemkeng, Yusuf Brima, Chuneeta Nunhokee and Jeremy Baxter(参考訳) 医療画像データセットのボリュームと複雑さは、ストレージ、送信、処理のボトルネックである。 これらの課題に対処するため、低ランク行列近似(LRMA)とその誘導体である局所LRMA(LLRMA)の適用の可能性が示された。 本稿では,医療画像にLRMAとLLRMAを適用した研究を,体系的な文献レビューにより紹介する。 文献の詳細な分析により、様々な画像モダリティに適用されたLRMA法とLLRMA法が同定される。 本稿では,既存のLRMA法とLLRMA法に関連する課題と限界について述べる。 2015年以降の医療画像分野におけるLLRMAの嗜好への大きな変化は、LRMAと比較して、医療データにおける複雑な構造を捉える可能性と有効性を示している。 LLRMAで用いられる浅部類似度手法の限界を認識し、類似度測定のための高度なセマンティックイメージセグメンテーションを提案し、類似パッチの計測方法とその実現可能性について詳述する。 LRMAとLLRMAは、主に非構造化医療データに適用され、構造化・半構造化を含む様々な医療データタイプに応用範囲を広げることを提案する。 また、LRMAとLLRMAは、欠落したエントリを持つ正規データに対してどのように適用できるか、また、欠落した値とその影響を予測するための不正確さの影響についても論じる。 パッチサイズの影響を議論し、最適なパッチサイズを決定するためにランダム検索(RS)を提案する。 医療画像におけるLRMAとLLRMAの適用性を向上させるため,ベイズ最適化とRSを用いたハイブリッドアプローチを提案する。

The large volume and complexity of medical imaging datasets are bottlenecks for storage, transmission, and processing. To tackle these challenges, the application of low-rank matrix approximation (LRMA) and its derivative, local LRMA (LLRMA) has demonstrated potential. This paper conducts a systematic literature review to showcase works applying LRMA and LLRMA in medical imaging. A detailed analysis of the literature identifies LRMA and LLRMA methods applied to various imaging modalities. This paper addresses the challenges and limitations associated with existing LRMA and LLRMA methods. We note a significant shift towards a preference for LLRMA in the medical imaging field since 2015, demonstrating its potential and effectiveness in capturing complex structures in medical data compared to LRMA. Acknowledging the limitations of shallow similarity methods used with LLRMA, we suggest advanced semantic image segmentation for similarity measure, explaining in detail how it can measure similar patches and their feasibility. We note that LRMA and LLRMA are mainly applied to unstructured medical data, and we propose extending their application to different medical data types, including structured and semi-structured. This paper also discusses how LRMA and LLRMA can be applied to regular data with missing entries and the impact of inaccuracies in predicting missing values and their effects. We discuss the impact of patch size and propose the use of random search (RS) to determine the optimal patch size. To enhance feasibility, a hybrid approach using Bayesian optimization and RS is proposed, which could improve the application of LRMA and LLRMA in medical imaging.
翻訳日:2024-02-23 17:36:17 公開日:2024-02-21
# 改良型海馬最適化器による大域的最適化と工学的問題の解法

A new approach for solving global optimization and engineering problems based on modified Sea Horse Optimizer ( http://arxiv.org/abs/2402.14044v1 )

ライセンス: Link先を確認
Fatma A. Hashim, Reham R. Mostafa, Ruba Abu Khurma, Raneem Qaddoura and P.A. Castillo(参考訳) シーホースオプティマイザ(英: sea horse optimizer、sho)は、海馬が示す様々な知的行動、摂食パターン、生殖戦略、複雑な運動パターンを模倣する、注目すべきメタヒューリスティックなアルゴリズムである。 海馬のニュアンス移動を模倣するために、shoは対数ヘリカル方程式とレヴィ飛行を統合し、実質的なステップサイズのランダムな動きと洗練された局所的搾取の両方を効果的に取り入れている。 さらに、ブラウン運動の利用は探索空間をより包括的に探索するのに役立つ。 本研究は,mSHOと呼ばれるSHOアルゴリズムの頑健かつ高性能な変種を紹介する。 この強化は主に、SHOの活用能力を高めることに焦点を当てており、元の手法を、近隣地域探索、グローバル非近隣地域探索、既存の地域周航を含む3つの異なるステップを含む革新的な地域探索戦略に置き換えることである。 これらの技術はmSHOアルゴリズムの探索能力を向上し、探索空間をナビゲートし、最適な解へ効率的に収束させることができる。 総合的な結果から,mSHO法の優位性と効率性を,最適化クオーダの配列に対処するための模範ツールとして明確に確立した。 その結果,提案したmSHOアルゴリズムはCEC'2020テスト関数の合計ランクが1であることがわかった。 対照的にmSHOは、圧力容器設計のための0.0012665, 2993.634, 0.01266, 1.724967, 263.8915, 0.032255, 58507.14, 1.339956, 0.23524, 速度低下器設計, 張力/圧縮ばね, 溶接ビーム設計, 3バートラス工学設計, 産業用冷蔵システム, マルチプロダクテッドプラント, カンチレバービーム問題, ディスククラッチブレーキ問題などを記録した。

Sea Horse Optimizer (SHO) is a noteworthy metaheuristic algorithm that emulates various intelligent behaviors exhibited by sea horses, encompassing feeding patterns, male reproductive strategies, and intricate movement patterns. To mimic the nuanced locomotion of sea horses, SHO integrates the logarithmic helical equation and Levy flight, effectively incorporating both random movements with substantial step sizes and refined local exploitation. Additionally, the utilization of Brownian motion facilitates a more comprehensive exploration of the search space. This study introduces a robust and high-performance variant of the SHO algorithm named mSHO. The enhancement primarily focuses on bolstering SHO's exploitation capabilities by replacing its original method with an innovative local search strategy encompassing three distinct steps: a neighborhood-based local search, a global non-neighbor-based search, and a method involving circumnavigation of the existing search region. These techniques improve mSHO algorithm's search capabilities, allowing it to navigate the search space and converge toward optimal solutions efficiently. The comprehensive results distinctly establish the supremacy and efficiency of the mSHO method as an exemplary tool for tackling an array of optimization quandaries. The results show that the proposed mSHO algorithm has a total rank of 1 for CEC'2020 test functions. In contrast, the mSHO achieved the best value for the engineering problems, recording a value of 0.012665, 2993.634, 0.01266, 1.724967, 263.8915, 0.032255, 58507.14, 1.339956, and 0.23524 for the pressure vessel design, speed reducer design, tension/compression spring, welded beam design, three-bar truss engineering design, industrial refrigeration system, multi-Product batch plant, cantilever beam problem, multiple disc clutch brake problems, respectively.
翻訳日:2024-02-23 17:35:50 公開日:2024-02-21
# ハイブリッド多方向量子通信プロトコル

Hybrid Multi-Directional Quantum Communication Protocol ( http://arxiv.org/abs/2402.14043v1 )

ライセンス: Link先を確認
Mitali Sisodia, Manoj Kumar Mandal, Binayak S. Choudhury(参考訳) 一つ以上の自由度を含むハイブリッド状態と呼ばれる新しいタイプの状態は、より少ない量のリソースを持つ量子通信タスクの多くの実践的な応用で使われている。 同様に、我々は多目的・多方向性の量子情報にアプローチするためのプロトコルでマルチ量子通信タスクを実行することを目的としている。 本研究では,100%成功確率の量子チャネルとして,マルチキュービットエンタングル状態を介してコントローラの監督下で,量子テレポーテーションと協調的遠隔状態準備を実現するハイブリッド多方向6者スキームを提案する。 さらに, 振幅減衰および位相減衰雑音下でのハイブリッド方式の平均忠実度を解析的に導出する。

The way a new type of state called a hybrid state, which contains more than one degree of freedom, is used in many practical applications of quantum communication tasks with lesser amount of resources. Similarly, our aim is here to perform multi-quantum communication tasks in a protocol to approach quantum information in multipurpose and multi-directional. We propose a hybrid multi-directional six-party scheme of implementing quantum teleportation and joint remote state preparation under the supervision of a controller via a multi-qubit entangled state as a quantum channel with 100% success probability. Moreover, we analytically derive the average fidelities of this hybrid scheme under the amplitude-damping and the phase-damping noise.
翻訳日:2024-02-23 17:34:46 公開日:2024-02-21
# 保護と拡張 -- GANを用いた時系列医療記録の合成データ生成

Protect and Extend -- Using GANs for Synthetic Data Generation of Time-Series Medical Records ( http://arxiv.org/abs/2402.14042v1 )

ライセンス: Link先を確認
Navid Ashrafi, Vera Schmitt, Robert P. Spang, Sebastian M\"oller, Jan-Niklas Voigt-Antons(参考訳) プライベートユーザデータの保存は、QoE(High Quality of Experience)やアクセシビリティ、特にITベースのヘルスサービスのような機密データを扱うサービスにとって、最重要事項である。 匿名化技術は、データ再識別の傾向が見られたが、データ漏洩に対する時間とリソースの消費が比較的少なく、堅牢であるため、合成データ生成は、匿名化を徐々に置き換えている。 GAN(Generative Adversarial Networks)は、合成データセットの生成、特に差分プライバシー現象に固執するGANフレームワークに使用されている。 本研究では,合成データ生成のための最先端のganモデルを比較し,プライバシの心配なく配布可能な認知症患者の時系列合成医療記録を生成する。 予測モデリング、自己相関、分布解析を用いて、生成されたデータの生成品質(QoG)を評価する。 各モデルのプライバシー保護は、潜在的データ漏洩リスクを決定するためにメンバーシップ推論攻撃を適用することで評価される。 本実験は,QoGの許容レベルを維持しつつ,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。 以上の結果から今後,医療現場におけるデータ保護の改善が期待できる。

Preservation of private user data is of paramount importance for high Quality of Experience (QoE) and acceptability, particularly with services treating sensitive data, such as IT-based health services. Whereas anonymization techniques were shown to be prone to data re-identification, synthetic data generation has gradually replaced anonymization since it is relatively less time and resource-consuming and more robust to data leakage. Generative Adversarial Networks (GANs) have been used for generating synthetic datasets, especially GAN frameworks adhering to the differential privacy phenomena. This research compares state-of-the-art GAN-based models for synthetic data generation to generate time-series synthetic medical records of dementia patients which can be distributed without privacy concerns. Predictive modeling, autocorrelation, and distribution analysis are used to assess the Quality of Generating (QoG) of the generated data. The privacy preservation of the respective models is assessed by applying membership inference attacks to determine potential data leakage risks. Our experiments indicate the superiority of the privacy-preserving GAN (PPGAN) model over other models regarding privacy preservation while maintaining an acceptable level of QoG. The presented results can support better data protection for medical use cases in the future.
翻訳日:2024-02-23 17:34:25 公開日:2024-02-21
# E2USD:多変量時系列の効率的な非教師付き状態検出

E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series ( http://arxiv.org/abs/2402.14041v1 )

ライセンス: Link先を確認
Zhichen Lai, Huan Li, Dalin Zhang, Yan Zhao, Weizhu Qian, Christian S. Jensen(参考訳) 本稿では,効率よくyet-accurate unsupervised MTS状態検出が可能なE2USDを提案する。 E2USDはFast Fourier Transform-based Time Series Compressor (FFTCompress) とDecomposed Dual-view Embedding Module (DDEM) を利用している。 さらに,偽陰性の影響を克服し,よりクラスタフレンドリーな埋め込み空間を実現するfncclearningを提案する。 ストリーミング設定における計算オーバーヘッドを軽減するため,Adaptive Threshold Detection (ADATD)を導入する。 6つのベースラインと6つのデータセットによる総合的な実験は、E2USDが計算オーバーヘッドを大幅に削減したSOTA精度を持つことを示す。 私たちのコードはhttps://github.com/AI4CTS/E2Usd.comで利用可能です。

We propose E2USD that enables efficient-yet-accurate unsupervised MTS state detection. E2USD exploits a Fast Fourier Transform-based Time Series Compressor (FFTCompress) and a Decomposed Dual-view Embedding Module (DDEM) that together encode input MTSs at low computational overhead. Additionally, we propose a False Negative Cancellation Contrastive Learning method (FNCCLearning) to counteract the effects of false negatives and to achieve more cluster-friendly embedding spaces. To reduce computational overhead further in streaming settings, we introduce Adaptive Threshold Detection (ADATD). Comprehensive experiments with six baselines and six datasets offer evidence that E2USD is capable of SOTA accuracy at significantly reduced computational overhead. Our code is available at https://github.com/AI4CTS/E2Usd.
翻訳日:2024-02-23 17:33:49 公開日:2024-02-21
# 高度不均衡マルチクラス分布における遠隔医療の文脈における特殊性検出

Specialty detection in the context of telemedicine in a highly imbalanced multi-class distribution ( http://arxiv.org/abs/2402.14039v1 )

ライセンス: Link先を確認
Alaa Alomari, Hossam Faris, Pedro A. Castillo(参考訳) Covid-19パンデミックにより、遠隔医療サービスの認識と需要が増加し、プロセスの自動化と運用負荷軽減のために機械学習(ML)に依存する必要が生じた。 本研究では,機械学習モデルに基づく専門性検出分類器を提案し,質問毎に正しい専門性を検出し,それを正しい医師にルーティングするプロセスを自動化する。 本研究は、アラビア語の医学的問題に対するマルチクラスデータセットと高度不均衡データセットの扱い、オーバーサンプリング技術の比較、専門性検出のためのディープニューラルネットワーク(DNN)モデルの開発、専門性検出に依存する隠蔽ビジネス領域の探索に焦点を当てた。 提案モジュールは同期型および非同期型の医療相談の両方にデプロイされ、よりリアルタイムな分類を提供し、適切な専門性に対処する医師の努力を最小限に抑え、医療相談フローをカスタマイズする柔軟性を高める。 評価と評価は精度、精度、リコール、F1スコアに基づいて行われる。 実験結果から,SMOTEなどの複数の手法とキーワード識別を併用することで,不均衡なマルチクラスデータセットにおける希少クラスの検出性能を向上させることが示唆された。 これらの技術を利用することで、不均衡なデータが一般的である現実世界のシナリオにおいて、特殊性検出モデルはより正確にレアクラスを検出できる。

The Covid-19 pandemic has led to an increase in the awareness of and demand for telemedicine services, resulting in a need for automating the process and relying on machine learning (ML) to reduce the operational load. This research proposes a specialty detection classifier based on a machine learning model to automate the process of detecting the correct specialty for each question and routing it to the correct doctor. The study focuses on handling multiclass and highly imbalanced datasets for Arabic medical questions, comparing some oversampling techniques, developing a Deep Neural Network (DNN) model for specialty detection, and exploring the hidden business areas that rely on specialty detection such as customizing and personalizing the consultation flow for different specialties. The proposed module is deployed in both synchronous and asynchronous medical consultations to provide more real-time classification, minimize the doctor effort in addressing the correct specialty, and give the system more flexibility in customizing the medical consultation flow. The evaluation and assessment are based on accuracy, precision, recall, and F1-score. The experimental results suggest that combining multiple techniques, such as SMOTE and reweighing with keyword identification, is necessary to achieve improved performance in detecting rare classes in imbalanced multiclass datasets. By using these techniques, specialty detection models can more accurately detect rare classes in real-world scenarios where imbalanced data is common.
翻訳日:2024-02-23 17:33:27 公開日:2024-02-21
# ハイブリッドハリスホークスと多層パーセプトロンを用いた効果的なネットワーク侵入検出手法

An Effective Networks Intrusion Detection Approach Based on Hybrid Harris Hawks and Multi-Layer Perceptron ( http://arxiv.org/abs/2402.14037v1 )

ライセンス: Link先を確認
Moutaz Alazab, Ruba Abu Khurma, Pedro A. Castillo, Bilal Abu-Salih, Alejandro Martin, David Camacho(参考訳) 本稿では、ハリスホークス最適化アルゴリズム(HHO)を用いた侵入検知システム(IDS)を提案し、バイアスと重みパラメータを最適化して多層パーセプトロン学習を最適化する。 HHO-MLPは、ネットワークの侵入検出エラーを最小限に抑えるため、学習プロセスにおいて最適なパラメータを選択することを目的としている。 HHO-MLPは、進化アルゴリズムを使用したMLPのトレーニングに特化したオープンソースのPythonツールであるEvoloPy NNフレームワークを使用して実装されている。 HHOモデルと現在利用可能な他の進化的方法論を比較するため、KDDデータセットを用いて特異性と感度測定、精度測定、mseおよびrmse測定が算出されている。 HHO MLP法は悪意のあるパターンの同定に有効であることを示した。 HHO-MLPは,Butterfly Optimization Algorithm (BOA), Grasshopper Optimization Algorithms (GOA), Black Widow Optimizations (BOW), Random Forest (RF), XG-Boost などの進化的アルゴリズムに対してテストされている。 HHO-MLPは93.17%の精度、89.25%の感度、95.41%の特異度でトップスコアを獲得することで優れた性能を示した。

This paper proposes an Intrusion Detection System (IDS) employing the Harris Hawks Optimization algorithm (HHO) to optimize Multilayer Perceptron learning by optimizing bias and weight parameters. HHO-MLP aims to select optimal parameters in its learning process to minimize intrusion detection errors in networks. HHO-MLP has been implemented using EvoloPy NN framework, an open-source Python tool specialized for training MLPs using evolutionary algorithms. For purposes of comparing the HHO model against other evolutionary methodologies currently available, specificity and sensitivity measures, accuracy measures, and mse and rmse measures have been calculated using KDD datasets. Experiments have demonstrated the HHO MLP method is effective at identifying malicious patterns. HHO-MLP has been tested against evolutionary algorithms like Butterfly Optimization Algorithm (BOA), Grasshopper Optimization Algorithms (GOA), and Black Widow Optimizations (BOW), with validation by Random Forest (RF), XG-Boost. HHO-MLP showed superior performance by attaining top scores with accuracy rate of 93.17%, sensitivity level of 89.25%, and specificity percentage of 95.41%.
翻訳日:2024-02-23 17:32:46 公開日:2024-02-21
# tspをquboで解くための量子アニーリングとグラフニューラルネットワーク

Quantum Annealing and Graph Neural Networks for Solving TSP with QUBO ( http://arxiv.org/abs/2402.14036v1 )

ライセンス: Link先を確認
Haoqi He(参考訳) 本稿では、量子アニーリングアルゴリズムとグラフニューラルネットワークによるトラベリングセールスマン問題(TSP)の解法として、二次非拘束バイナリ最適化(QUBO)モデルの適用について検討する。 量子トンネルを利用して局所ミニマから逃れる量子アニーリング(QA)は、コヒーレントイジングマシン(CIM)上のTSPインスタンスのQUBO定式化を解決するために用いられる。 また,本論文では,TSPを効率的に解けるように設計されたGNNアーキテクチャにおいて,損失関数としてQUBOを用いる手法を提案する。 グラフ表現を学習するGNNの能力を利用して、従来の正確な解法に比べて計算時間が改善されたTSPの近似解を求める。 本稿では、都市訪問をバイナリ変数にエンコードし、有効なツアーを保証する制約を定式化することで、TSPのためのQUBOモデルを構築する方法について述べる。 さらに、TSP(QQA-TSP)のためのQUBOベースの量子アニーリングアルゴリズムの実装と、量子シミュレーションプラットフォームを用いた実現可能性の実証についても論じる。 さらに、TSP(QGNN-TSP)のためのグラフニューラルネットワークソリューションを導入し、問題の基盤構造を学習し、QUBOに基づく損失関数の勾配勾配による競合ソリューションを生成する。 実験結果は、動的プログラミング、Concorde、Gurobiのような最先端の古典的解法に対するQQA-TSPの性能を比較し、また様々なTSPデータセット上でQGNN-TSPのトレーニングと評価から経験的な結果を示す。 この研究は、深層学習技術と量子インスパイアされた最適化手法を組み合わせることで、TSPのようなNPハード問題を解くこと、GNNアーキテクチャの強化、より複雑な組合せ最適化タスクにQUBOフレームワークを適用するための今後の方向性を提案する。

This paper explores the application of Quadratic Unconstrained Binary Optimization (QUBO) models in solving the Travelling Salesman Problem (TSP) through Quantum Annealing algorithms and Graph Neural Networks. Quantum Annealing (QA), a quantum-inspired optimization method that exploits quantum tunneling to escape local minima, is used to solve QUBO formulations of TSP instances on Coherent Ising Machines (CIMs). The paper also presents a novel approach where QUBO is employed as a loss function within a GNN architecture tailored for solving TSP efficiently. By leveraging GNN's capability to learn graph representations, this method finds approximate solutions to TSP with improved computational time compared to traditional exact solvers. The paper details how to construct a QUBO model for TSP by encoding city visits into binary variables and formulating constraints that guarantee valid tours. It further discusses the implementation of QUBO-based Quantum Annealing algorithm for TSP (QQA-TSP) and its feasibility demonstration using quantum simulation platforms. In addition, it introduces a Graph Neural Network solution for TSP (QGNN-TSP), which learns the underlying structure of the problem and produces competitive solutions via gradient descent over a QUBO-based loss function. The experimental results compare the performance of QQA-TSP against state-of-the-art classical solvers such as dynamic programming, Concorde, and Gurobi, while also presenting empirical outcomes from training and evaluating QGNN-TSP on various TSP datasets. The study highlights the promise of combining deep learning techniques with quantum-inspired optimization methods for solving NP-hard problems like TSP, suggesting future directions for enhancing GNN architectures and applying QUBO frameworks to more complex combinatorial optimization tasks.
翻訳日:2024-02-23 17:32:12 公開日:2024-02-21
# 委員会の知恵:基礎モデルから特殊応用モデルへの蒸留

Wisdom of Committee: Distilling from Foundation Model to SpecializedApplication Model ( http://arxiv.org/abs/2402.14035v1 )

ライセンス: Link先を確認
Zichang Liu, Qingyun Liu, Yuening Li, Liang Liu, Anshumali Shrivastava, Shuchao Bi, Lichan Hong, Ed H. Chi, Zhe Zhao(参考訳) 基礎モデルの最近の進歩は、幅広いタスクで印象的なパフォーマンスをもたらしている。 一方、特定のアプリケーションでは、実践者は特別なアプリケーションモデルを開発しています。 両方のモデルの利点を享受するために、基礎モデルの知識を特殊なアプリケーションモデルに移すことが自然な道の1つだ。 ここでは知識蒸留の技術が適用され、そこではアプリケーションモデルが基礎モデルの模倣を学ぶ。 しかし、特殊なアプリケーションモデルと基礎モデルにはキャパシティにかなりのギャップがあり、異なるアーキテクチャを採用し、異なるモードから異なる入力機能を使用し、異なる分散に最適化されている。 これらのモデル特性の違いは蒸留法に大きな課題をもたらす。 本研究では,基礎モデル教員と補足教員の両方からなる教育委員会の創設を提案する。 補足的な教師は、基礎モデルと専門アプリケーションモデルとのギャップを埋めることを目的として、生徒に類似したモデル特性を持っている。 さらに,委員会における教師間の相違に対応するために,学生が各教師の専門知識を理解し,課題知識を抽出できる「DiverseDistill」を紹介した。 本評価は,補完的な教員の追加が学生のパフォーマンスを向上させることを示すものである。 最後に、DiverseDistillは教師の選択にかかわらず、基礎的な蒸留法を一貫して上回り、学生のパフォーマンスが大幅に向上する。

Recent advancements in foundation models have yielded impressive performance across a wide range of tasks. Meanwhile, for specific applications, practitioners have been developing specialized application models. To enjoy the benefits of both kinds of models, one natural path is to transfer the knowledge in foundation models into specialized application models, which are generally more efficient for serving. Techniques from knowledge distillation may be applied here, where the application model learns to mimic the foundation model. However, specialized application models and foundation models have substantial gaps in capacity, employing distinct architectures, using different input features from different modalities, and being optimized on different distributions. These differences in model characteristics lead to significant challenges for distillation methods. In this work, we propose creating a teaching committee comprising both foundation model teachers and complementary teachers. Complementary teachers possess model characteristics akin to the student's, aiming to bridge the gap between the foundation model and specialized application models for a smoother knowledge transfer. Further, to accommodate the dissimilarity among the teachers in the committee, we introduce DiverseDistill, which allows the student to understand the expertise of each teacher and extract task knowledge. Our evaluations demonstrate that adding complementary teachers enhances student performance. Finally, DiverseDistill consistently outperforms baseline distillation methods, regardless of the teacher choices, resulting in significantly improved student performance.
翻訳日:2024-02-23 17:31:37 公開日:2024-02-21
# AgentScope: 柔軟でロバストなマルチエージェントプラットフォーム

AgentScope: A Flexible yet Robust Multi-Agent Platform ( http://arxiv.org/abs/2402.14034v1 )

ライセンス: Link先を確認
Dawei Gao, Zitao Li, Weirui Kuang, Xuchen Pan, Daoyuan Chen, Zhijian Ma, Bingchen Qian, Liuyi Yao, Lin Zhu, Chen Cheng, Hongzhu Shi, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 大規模言語モデル(llm)の急速な進歩により、マルチエージェントアプリケーションでは大きな進歩が見られた。 しかしながら、エージェントの協調とllmsのエロティックなパフォーマンスの複雑さは、堅牢で効率的なマルチエージェントアプリケーションを開発する上で顕著な課題をもたらす。 これらの課題に対処するために,メッセージ交換をコア通信機構とする開発者中心のマルチエージェントプラットフォームであるAgentScopeを提案する。 豊富な構文ツールや組み込みリソース、ユーザフレンドリなインタラクションとともに、私たちのコミュニケーションメカニズムは、開発と理解の障壁を大幅に削減します。 堅牢で柔軟なマルチエージェントアプリケーションに向けて、AgentScopeはビルトインとカスタマイズ可能なフォールトトレランスメカニズムを提供し、マルチモーダルデータ生成、ストレージ、トランスミッションのためのシステムレベルのサポートも備えている。 さらに、ローカルおよび分散デプロイメント間の変換を容易にし、余分な労力なしで自動並列最適化を可能にするアクタベースの分散フレームワークを設計する。 これらの機能により、AgentScopeは開発者がインテリジェントエージェントの可能性を完全に実現できるアプリケーションを構築することができる。 我々はAgentScopeをhttps://github.com/modelscope/agentscopeでリリースしました。

With the rapid advancement of Large Language Models (LLMs), significant progress has been made in multi-agent applications. However, the complexities in coordinating agents' cooperation and LLMs' erratic performance pose notable challenges in developing robust and efficient multi-agent applications. To tackle these challenges, we propose AgentScope, a developer-centric multi-agent platform with message exchange as its core communication mechanism. Together with abundant syntactic tools, built-in resources, and user-friendly interactions, our communication mechanism significantly reduces the barriers to both development and understanding. Towards robust and flexible multi-agent application, AgentScope provides both built-in and customizable fault tolerance mechanisms while it is also armed with system-level supports for multi-modal data generation, storage and transmission. Additionally, we design an actor-based distribution framework, enabling easy conversion between local and distributed deployments and automatic parallel optimization without extra effort. With these features, AgentScope empowers developers to build applications that fully realize the potential of intelligent agents. We have released AgentScope at https://github.com/modelscope/agentscope, and hope AgentScope invites wider participation and innovation in this fast-moving field.
翻訳日:2024-02-23 17:31:11 公開日:2024-02-21
# VN Network: 新しく誕生したエンティティを仮想近隣に埋め込む

VN Network: Embedding Newly Emerging Entities with Virtual Neighbors ( http://arxiv.org/abs/2402.14033v1 )

ライセンス: Link先を確認
Yongquan He and Zihan Wang and Peng Zhang and Zhaopeng Tu and Zhaochun Ren(参考訳) 連続ベクトル空間への実体と関係の埋め込みは近年、関心の高まりを招いている。 ほとんどの埋め込みメソッドは、すべてのテストエンティティがトレーニング中に利用可能であると仮定している。 この問題に対処するために、最近の研究は、未発見のエンティティの既存の近傍にグラフニューラルネットワークを適用する。 本稿では,VN(Virtual Neighbor)ネットワークという,3つの課題に対処する新しいフレームワークを提案する。 まず、近隣の空間問題を減らすために、ルールによって推測される仮想隣人の概念を導入する。 そして、規則に制約のある問題を解決することで、これらの隣人にソフトなラベルを割り当てる。 第二に、既存の方法の多くは、集約のために1ホップまたは2ホップの隣人しか使用せず、役に立つかもしれない遠い情報を無視している。 代わりに、複雑なパターンをキャプチャするロジックと対称パスの両方のルールを特定します。 最後に,1回限りのルール注入の代わりに,埋め込み手法と仮想隣接予測の反復学習方式を用いてインタラクションをキャプチャする。 2つの知識グラフ補完タスクの実験結果は、我々のVNネットワークが最先端のベースラインを大幅に上回っていることを示している。 さらに,提案手法が提案するvnネットワークは,隣接するスパルシティ問題に対して非常に頑健であることを示す。

Embedding entities and relations into continuous vector spaces has attracted a surge of interest in recent years. Most embedding methods assume that all test entities are available during training, which makes it time-consuming to retrain embeddings for newly emerging entities. To address this issue, recent works apply the graph neural network on the existing neighbors of the unseen entities. In this paper, we propose a novel framework, namely Virtual Neighbor (VN) network, to address three key challenges. Firstly, to reduce the neighbor sparsity problem, we introduce the concept of the virtual neighbors inferred by rules. And we assign soft labels to these neighbors by solving a rule-constrained problem, rather than simply regarding them as unquestionably true. Secondly, many existing methods only use one-hop or two-hop neighbors for aggregation and ignore the distant information that may be helpful. Instead, we identify both logic and symmetric path rules to capture complex patterns. Finally, instead of one-time injection of rules, we employ an iterative learning scheme between the embedding method and virtual neighbor prediction to capture the interactions within. Experimental results on two knowledge graph completion tasks demonstrate that our VN network significantly outperforms state-of-the-art baselines. Furthermore, results on Subject/Object-R show that our proposed VN network is highly robust to the neighbor sparsity problem.
翻訳日:2024-02-23 17:30:48 公開日:2024-02-21
# AdaGradの緩和による収束性の再検討

Revisiting Convergence of AdaGrad with Relaxed Assumptions ( http://arxiv.org/abs/2402.13794v1 )

ライセンス: Link先を確認
Yusu Hong and Junhong Lin(参考訳) 本研究では,非凸な滑らかな最適化問題に対する AdaGrad の運動量(特別な場合として AdaGrad をカバー)との収束を再考する。 一般騒音モデルでは, 関数値の差と勾配の差によって騒音の大きさが制御される。 このモデルは、有界雑音、準ガウス雑音、アフィン分散雑音、期待される滑らかさを含む幅広いノイズを含み、多くの実用的応用においてより現実的であることが示されている。 この解析により, 一般雑音下では (\tilde{\mathcal{O}}(1/\sqrt{T}) に到達できる確率収束率が得られる。 この速度は問題パラメータの事前の知識に依存しておらず、関数値ギャップとノイズレベルに関するノイズパラメータが十分に小さい場合、 (T) が総数の繰り返しを表すような (\tilde{\mathcal{O}}(1/T)) に加速することができる。 したがって収束率は非凸な滑らかな風景上の確率的一階法の低い速度に一致する[Arjevani et al., 2023]。 さらに,局所平滑性が勾配ノルムの一階関数によって制御される一般化平滑性を考慮して,アダグラードとモメトゥムとの収束束を求める。

In this study, we revisit the convergence of AdaGrad with momentum (covering AdaGrad as a special case) on non-convex smooth optimization problems. We consider a general noise model where the noise magnitude is controlled by the function value gap together with the gradient magnitude. This model encompasses a broad range of noises including bounded noise, sub-Gaussian noise, affine variance noise and the expected smoothness, and it has been shown to be more realistic in many practical applications. Our analysis yields a probabilistic convergence rate which, under the general noise, could reach at (\tilde{\mathcal{O}}(1/\sqrt{T})). This rate does not rely on prior knowledge of problem-parameters and could accelerate to (\tilde{\mathcal{O}}(1/T)) where (T) denotes the total number iterations, when the noise parameters related to the function value gap and noise level are sufficiently small. The convergence rate thus matches the lower rate for stochastic first-order methods over non-convex smooth landscape up to logarithm terms [Arjevani et al., 2023]. We further derive a convergence bound for AdaGrad with mometum, considering the generalized smoothness where the local smoothness is controlled by a first-order function of the gradient norm.
翻訳日:2024-02-23 17:30:00 公開日:2024-02-21
# Few-Shot Annotator Adaptationによるコスト効率の良い主観的タスクアノテーションとモデリング

Cost-Efficient Subjective Task Annotation and Modeling through Few-Shot Annotator Adaptation ( http://arxiv.org/abs/2402.14101v1 )

ライセンス: Link先を確認
Preni Golazizian, Ali Omrani, Alireza S. Ziabari, Morteza Dehghani(参考訳) 単元真理が存在しない主観的NLPタスクでは、アノテーションに固有の視点が大きな影響を与えるため、多元的アノテータの含みが重要となる。 現実的なシナリオでは、アノテーションの予算はデータとその後のモデリングに含まれる視点(アノテーション)の数の主要な決定要因となることが多い。 本稿では,各アノテータの予測性能を最大化しつつ,アノテーション予算の最小化を目的とした主観的タスクにおけるアノテーション収集とモデリングのための新しいフレームワークを提案する。 ひとつは、マルチタスクモデルを構築するために、小さなアノテータセットに依存し、もうひとつは、アノテータ毎にいくつかのサンプルを戦略的にアノテートすることで、新しい視点でモデルを拡張することです。 当社のフレームワークを大規模にテストするために、2000年のReddit投稿のユニークなデータセットであるMoral Foundations Subjective Corpusを導入、リリースしました。 2つのデータセットの注釈予算の25%しか持たないアノテータの個々の視点を捉えることで、我々のフレームワークが以前のsotaを上回っていることを実証する。 さらに,本フレームワークは,アノテータ間の性能格差を低減し,より公平なモデルを実現する。

In subjective NLP tasks, where a single ground truth does not exist, the inclusion of diverse annotators becomes crucial as their unique perspectives significantly influence the annotations. In realistic scenarios, the annotation budget often becomes the main determinant of the number of perspectives (i.e., annotators) included in the data and subsequent modeling. We introduce a novel framework for annotation collection and modeling in subjective tasks that aims to minimize the annotation budget while maximizing the predictive performance for each annotator. Our framework has a two-stage design: first, we rely on a small set of annotators to build a multitask model, and second, we augment the model for a new perspective by strategically annotating a few samples per annotator. To test our framework at scale, we introduce and release a unique dataset, Moral Foundations Subjective Corpus, of 2000 Reddit posts annotated by 24 annotators for moral sentiment. We demonstrate that our framework surpasses the previous SOTA in capturing the annotators' individual perspectives with as little as 25% of the original annotation budget on two datasets. Furthermore, our framework results in more equitable models, reducing the performance disparity among annotators.
翻訳日:2024-02-23 17:25:02 公開日:2024-02-21
# 非小細胞肺癌放射線治療におけるehrガイド下肺腫瘍自動切除

EXACT-Net:EHR-guided lung tumor auto-segmentation for non-small cell lung cancer radiotherapy ( http://arxiv.org/abs/2402.14099v1 )

ライセンス: Link先を確認
Hamed Hooshangnejad, Xue Feng, Gaofeng Huang, Rui Zhang, Quan Chen, Kai Ding(参考訳) 肺癌は、がんの種類の中で最も死亡率の高い壊滅的な疾患である。 診断の87%を占める非小細胞肺癌(nsclc)患者の60%以上が放射線治療を必要としている。 迅速な治療開始は患者の生存率を著しく増加させ、死亡率を低下させる。 NSCLCの診断と治療において,正確な腫瘍分節化が重要なステップである。 手動セグメンテーションは時間と労力を消費し、治療開始の遅延を引き起こす。 深層学習モデルを含む多くの肺結節検出法が提案されているが、これらの方法のほとんどで高偽陽性(FPs)の長年の問題が残っている。 そこで我々は,ExACT-Net (EHR-enhanced eXACtitude in tumor segmentation, EHR-enhanced eXACtitude in tumor segmentation) と呼ばれる電子健康記録(EHR)を作成した。 オートセグメンテーションモデルはNSCLC患者のCT(Computed tomography)に基づいて訓練し, ゼロショット学習アプローチでは事前訓練したLCMを使用した。 当院で治療した10例のNSCLCデータを用いて結節検出が250%向上した。

Lung cancer is a devastating disease with the highest mortality rate among cancer types. Over 60% of non-small cell lung cancer (NSCLC) patients, which accounts for 87% of diagnoses, require radiation therapy. Rapid treatment initiation significantly increases the patient's survival rate and reduces the mortality rate. Accurate tumor segmentation is a critical step in the diagnosis and treatment of NSCLC. Manual segmentation is time and labor-consuming and causes delays in treatment initiation. Although many lung nodule detection methods, including deep learning-based models, have been proposed, there is still a long-standing problem of high false positives (FPs) with most of these methods. Here, we developed an electronic health record (EHR) guided lung tumor auto-segmentation called EXACT-Net (EHR-enhanced eXACtitude in Tumor segmentation), where the extracted information from EHRs using a pre-trained large language model (LLM), was used to remove the FPs and keep the TP nodules only. The auto-segmentation model was trained on NSCLC patients' computed tomography (CT), and the pre-trained LLM was used with the zero-shot learning approach. Our approach resulted in a 250% boost in successful nodule detection using the data from ten NSCLC patients treated in our institution.
翻訳日:2024-02-23 17:24:42 公開日:2024-02-21
# 現代ガンの興味深い性質

Intriguing Properties of Modern GANs ( http://arxiv.org/abs/2402.14098v1 )

ライセンス: Link先を確認
Roy Friedman and Yair Weiss(参考訳) 現代のGANは、現実的で多様なサンプルを生成するという点で顕著なパフォーマンスを実現している。 このことから、多くの人は ``gans capture the training data manifold''' を信じている。 この本では、この解釈が間違っていることを示します。 特に、この多様体はトレーニング例を通らず、分布外画像に近づき、分布内画像に近づかない。 また,既存のGANがトレーニング分布を近似した密度を学習するかどうかを,事前の暗示した画像の分布について検討した。 驚くべきことに、学習された密度はデータ分布に遠く及ばず、ganは分散画像に高い密度を割り当てる傾向がある。 最後に、現代のGANを訓練するために使用される画像の集合が、GANの分布によって記述される典型的な集合の一部ではないことを実証する。

Modern GANs achieve remarkable performance in terms of generating realistic and diverse samples. This has led many to believe that ``GANs capture the training data manifold''. In this work we show that this interpretation is wrong. We empirically show that the manifold learned by modern GANs does not fit the training distribution: specifically the manifold does not pass through the training examples and passes closer to out-of-distribution images than to in-distribution images. We also investigate the distribution over images implied by the prior over the latent codes and study whether modern GANs learn a density that approximates the training distribution. Surprisingly, we find that the learned density is very far from the data distribution and that GANs tend to assign higher density to out-of-distribution images. Finally, we demonstrate that the set of images used to train modern GANs are often not part of the typical set described by the GANs' distribution.
翻訳日:2024-02-23 17:24:16 公開日:2024-02-21
# eyetrans: ニューラルコード要約のための人間と機械の注意の融合

EyeTrans: Merging Human and Machine Attention for Neural Code Summarization ( http://arxiv.org/abs/2402.14096v1 )

ライセンス: Link先を確認
Yifan Zhang, Jiliang Li, Zachary Karas, Aakash Bansal, Toby Jia-Jun Li, Collin McMillan, Kevin Leach, Yu Huang(参考訳) ニューラルネットワークの要約はディープラーニングモデルを利用して、コードスニペットの簡単な自然言語要約を自動的に生成する。 トランスフォーマーモデルの開発は、モデル設計中に広範囲に注意を向ける結果となった。 既存の作業は主にソースコードの静的な特性とAST(Abstract Syntax Tree)のような関連する構造表現に重点を置いているが、プログラマがコードを調べて理解しながら注目する研究はほとんどない。 本稿では,人間の注意を機械の注意に取り入れ,ニューラルネットワークの要約を強化する手法を開発する。 To facilitate this incorporation and vindicate this hypothesis, we introduce EyeTrans, which consists of three steps: (1) we conduct an extensive eye-tracking human study to collect and pre-analyze data for model training, (2) we devise a data-centric approach to integrate human attention with machine attention in the Transformer architecture, and (3) we conduct comprehensive experiments on two code summarization tasks to demonstrate the effectiveness of incorporating human attention into Transformers. 人間の注意を組み込むことで、関数的要約の最大29.91%、一般コード要約のパフォーマンスの最大6.39%が改善され、この組み合わせの実質的な利点が示される。 我々はさらに,eyetransが興味深い特性を示すような難解な要約シナリオを作成することにより,ロバスト性と効率性の観点からパフォーマンスを探求する。 また、人間の注意を取り入れることで、トランスフォーマーにおける機械的注意の簡易化効果を可視化する。 この研究は、より人間中心のアプローチとデータを導入することで、ソフトウェアエンジニアリングにおけるAI研究を促進する可能性がある。

Neural code summarization leverages deep learning models to automatically generate brief natural language summaries of code snippets. The development of Transformer models has led to extensive use of attention during model design. While existing work has primarily and almost exclusively focused on static properties of source code and related structural representations like the Abstract Syntax Tree (AST), few studies have considered human attention, that is, where programmers focus while examining and comprehending code. In this paper, we develop a method for incorporating human attention into machine attention to enhance neural code summarization. To facilitate this incorporation and vindicate this hypothesis, we introduce EyeTrans, which consists of three steps: (1) we conduct an extensive eye-tracking human study to collect and pre-analyze data for model training, (2) we devise a data-centric approach to integrate human attention with machine attention in the Transformer architecture, and (3) we conduct comprehensive experiments on two code summarization tasks to demonstrate the effectiveness of incorporating human attention into Transformers. Integrating human attention leads to an improvement of up to 29.91% in Functional Summarization and up to 6.39% in General Code Summarization performance, demonstrating the substantial benefits of this combination. We further explore performance in terms of robustness and efficiency by creating challenging summarization scenarios in which EyeTrans exhibits interesting properties. We also visualize the attention map to depict the simplifying effect of machine attention in the Transformer by incorporating human attention. This work has the potential to propel AI research in software engineering by introducing more human-centered approaches and data.
翻訳日:2024-02-23 17:24:01 公開日:2024-02-21
# 視覚分類のためのアーキテクチャ全体のゼロショット一般化

Zero-shot generalization across architectures for visual classification ( http://arxiv.org/abs/2402.14095v1 )

ライセンス: Link先を確認
Evan Gerrtiz, Luciano Dyballa, Steven W. Zucker(参考訳) 未知データへの一般化はディープネットワークの重要なデシドラタムであるが、その分類精度との関係は明らかではない。 最小主義的ビジョンデータセットと一般化可能性尺度を用いることで、深層畳み込みネットワーク(cnns)からトランスフォーマーまで、レイヤ間およびアーキテクチャ全体にわたって非認識クラスに外挿する能力が異なることが分かる。 精度は一般化可能性の予測に適しておらず、一般化は単調に層深さで変化する。 コードはhttps://github.com/dyballa/zero-shot-generalizationで入手できる。

Generalization to unseen data is a key desideratum for deep networks, but its relation to classification accuracy is unclear. Using a minimalist vision dataset and a measure of generalizability, we show that popular networks, from deep convolutional networks (CNNs) to transformers, vary in their power to extrapolate to unseen classes both across layers and across architectures. Accuracy is not a good predictor of generalizability, and generalization varies non-monotonically with layer depth. Code is available at https://github.com/dyballa/zero-shot-generalization.
翻訳日:2024-02-23 17:23:34 公開日:2024-02-21
# 社会環境デザイン

Social Environment Design ( http://arxiv.org/abs/2402.14090v1 )

ライセンス: Link先を確認
Edwin Zhang, Sadie Zhao, Tonghan Wang, Safwan Hossain, Henry Gasztowtt, Stephan Zheng, David C. Parkes, Milind Tambe, Yiling Chen(参考訳) 人工知能(AI)は、政府や経済政策の改善に使用できる技術として、約束を守る。 本稿では,強化学習,econc,計算社会選択コミュニティと連携した,aiによる政策立案の自動化のための汎用フレームワークであるsocial environment designを導入することで,この目的に向けた新たな研究課題を提案する。 この枠組みは、政策目標の投票を含む一般的な経済環境を捉え、aiシミュレーションによる政府と経済政策の体系的分析の方向性を提供する。 AIベースの政策決定における今後の研究の鍵となるオープンな問題を強調します。 これらの課題を解決することで、我々は様々な社会福祉目標を達成し、より倫理的で責任ある意思決定を促進することを望んでいる。

Artificial Intelligence (AI) holds promise as a technology that can be used to improve government and economic policy-making. This paper proposes a new research agenda towards this end by introducing Social Environment Design, a general framework for the use of AI for automated policy-making that connects with the Reinforcement Learning, EconCS, and Computational Social Choice communities. The framework seeks to capture general economic environments, includes voting on policy objectives, and gives a direction for the systematic analysis of government and economic policy through AI simulation. We highlight key open problems for future research in AI-based policy-making. By solving these challenges, we hope to achieve various social welfare objectives, thereby promoting more ethical and responsible decision making.
翻訳日:2024-02-23 17:23:22 公開日:2024-02-21
# LexC-Gen: 大きな言語モデルとバイリンガル語彙を持つ極低リソース言語のためのデータ生成

LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons ( http://arxiv.org/abs/2402.14086v1 )

ライセンス: Link先を確認
Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach(参考訳) 低リソース言語におけるデータ不足は、バイリンガルレキシコンを使用して、高リソース言語におけるラベル付きタスクデータから単語間翻訳で対処できる。 しかし、二言語レキシコンはしばしばタスクデータとの語彙重なりが制限され、翻訳カバレッジが低く、レキシコンの使用率も低くなる。 本稿では,低リソース言語分類タスクデータを大規模に生成する手法であるlexc-genを提案する。 具体的には、LexC-Genはまずバイリンガル語彙から高リソース語を用いて語彙互換のタスクデータを生成し、その後、単語翻訳を介して低リソース言語に翻訳する。 17の極低リソース言語において、LexC-Genの生成したデータは、専門家が翻訳したゴールドデータと競合し、感情分析とトピック分類タスクにおける既存の語彙ベースの単語翻訳法よりも平均5.6と8.9ポイント改善される。 両言語レキシコンの条件付けがLexC-Genの重要な構成要素であることを示す。 LexC-Genも実用的です - 大規模にデータを生成するには1つのGPUしか必要ありません。 オープンアクセスのLCMではうまく動作し、コストはGPT4ベースの多言語データ生成の5分の1である。

Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation (LexC-Gen), a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. We show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen is also practical -- it only needs a single GPU to generate data at scale. It works well with open-access LLMs, and its cost is one-fifth of the cost of GPT4-based multilingual data generation.
翻訳日:2024-02-23 17:23:10 公開日:2024-02-21
# Beyond A*: Search Dynamics Bootstrappingによるトランスフォーマーによるプランニングの改善

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping ( http://arxiv.org/abs/2402.14083v1 )

ライセンス: Link先を確認
Lucas Lehnert, Sainbayar Sukhbaatar, Paul Mcvay, Michael Rabbat, Yuandong Tian(参考訳) Transformerは様々なアプリケーション設定で大幅な進歩を実現していますが、そのようなアーキテクチャは複雑な意思決定タスクを解決するための従来の象徴的なプランナーより遅れています。 本研究では,複雑な計画課題を解決するために変圧器を訓練する方法を実証し,これまで見つからなかったソルコバンパズルの93.7%を最適に解く変圧器モデルであるsearchformerを,標準の$a^*$検索よりも26.8%少ない検索ステップで提供する。 Searchformerは、$A^*$の検索ダイナミクスを予測するために訓練されたエンコーダデコーダトランスフォーマーモデルである。 このモデルはエキスパートイテレーションによって微調整され、$a^*$の検索よりも少ない検索ステップを実行し、最適な計画を生成する。 トレーニング手法では,A^*$の探索ダイナミクスをトークンシーケンスとして表現し,シンボルプランニング中にタスク状態の追加や検索ツリーへの削除を行う。 迷路ナビゲーションに関するアブレーション研究では、Searchformerが5-10$\times$小さなモデルサイズと10$\times$小さなトレーニングデータセットで、最適な計画を直接予測するベースラインを大幅に上回っていることが分かりました。 また,解決タスクのパーセンテージを向上し,検索ダイナミクスを短縮した,sokobanのような大規模で複雑な意思決定タスクに対して,searchformerがいかにスケールするかを実証する。

While Transformers have enabled tremendous progress in various application settings, such architectures still lag behind traditional symbolic planners for solving complex decision making tasks. In this work, we demonstrate how to train Transformers to solve complex planning tasks and present Searchformer, a Transformer model that optimally solves previously unseen Sokoban puzzles 93.7% of the time, while using up to 26.8% fewer search steps than standard $A^*$ search. Searchformer is an encoder-decoder Transformer model trained to predict the search dynamics of $A^*$. This model is then fine-tuned via expert iterations to perform fewer search steps than $A^*$ search while still generating an optimal plan. In our training method, $A^*$'s search dynamics are expressed as a token sequence outlining when task states are added and removed into the search tree during symbolic planning. In our ablation studies on maze navigation, we find that Searchformer significantly outperforms baselines that predict the optimal plan directly with a 5-10$\times$ smaller model size and a 10$\times$ smaller training dataset. We also demonstrate how Searchformer scales to larger and more complex decision making tasks like Sokoban with improved percentage of solved tasks and shortened search dynamics.
翻訳日:2024-02-23 17:22:47 公開日:2024-02-21
# 動き符号を用いた確率過程モデルを用いた雑音時系列コレクションのロバスト学習

Robust Learning of Noisy Time Series Collections Using Stochastic Process Models with Motion Codes ( http://arxiv.org/abs/2402.14081v1 )

ライセンス: Link先を確認
Chandrajit Bajaj, Minh Nguyen(参考訳) 時系列分類と予測問題は広く研究されているが、任意の時系列の長さを持つノイズの多い時系列データの場合はまだ困難である。 各時系列のインスタンスは、連続的な確率過程によって特徴づけられるノイズの動的モデルのサンプル化と考えることができる。 多くのアプリケーションにおいて、データは混合され、複数の確率過程によってモデル化されたノイズの多い時系列列からなり、予測および分類タスクはさらに困難になる。 時系列のタイプごとにデータをネイティブかつ個別にレグレッションするのではなく、学習されたスペクトルカーネルを持つ混合ガウス過程を用いた潜在変数モデルアプローチを採用する。 具体的には、各ノイズのある時系列データに対して、その動作コードと呼ばれる署名ベクトルを自動割り当てする。 そして、与えられた各動作コードに基づいて、最も有益なタイムスタンプの概念を用いて、対応する時系列のスパース近似を推測する。 我々の未混合分類アプローチは、様々な長さの混合ノイズ時系列列にまたがる確率を最大化する。 この確率的アプローチは、単一のノイズの多い時系列データだけでなく、多くの基礎となる確率的プロセスでも学習できるので、統合的で堅牢な方法で複数の動的モデルを学ぶことができる。 異なる学習された潜在確率モデルは、特定のサブタイプの予測を生成することができる。 我々は,提案手法の性能を示す定量的比較を行った。

While time series classification and forecasting problems have been extensively studied, the cases of noisy time series data with arbitrary time sequence lengths have remained challenging. Each time series instance can be thought of as a sample realization of a noisy dynamical model, which is characterized by a continuous stochastic process. For many applications, the data are mixed and consist of several types of noisy time series sequences modeled by multiple stochastic processes, making the forecasting and classification tasks even more challenging. Instead of regressing data naively and individually to each time series type, we take a latent variable model approach using a mixtured Gaussian processes with learned spectral kernels. More specifically, we auto-assign each type of noisy time series data a signature vector called its motion code. Then, conditioned on each assigned motion code, we infer a sparse approximation of the corresponding time series using the concept of the most informative timestamps. Our unmixing classification approach involves maximizing the likelihood across all the mixed noisy time series sequences of varying lengths. This stochastic approach allows us to learn not only within a single type of noisy time series data but also across many underlying stochastic processes, giving us a way to learn multiple dynamical models in an integrated and robust manner. The different learned latent stochastic models allow us to generate specific sub-type forecasting. We provide several quantitative comparisons demonstrating the performance of our approach.
翻訳日:2024-02-23 17:22:22 公開日:2024-02-21
# 深層回帰林を用いた抗がん剤感受性予測のための効率的正規化コンフォメーション予測と不確実性定量化

Efficient Normalized Conformal Prediction and Uncertainty Quantification for Anti-Cancer Drug Sensitivity Prediction with Deep Regression Forests ( http://arxiv.org/abs/2402.14080v1 )

ライセンス: Link先を確認
Daniel Nolte, Souparno Ghosh, Ranadip Pal(参考訳) ディープラーニングモデルが採用され、さまざまな重要な意思決定タスクに適用されているが、信頼性を提供することなく、ポイント予測を提供するようにトレーニングされている。 深層学習モデルの信頼性は、不確実性推定と組み合わせれば向上できる。 共形予測は、機械学習モデルと予測間隔を組み合わせる有望な方法として登場し、モデルの不確かさを見ることができる。 しかし、共形予測のための一般的な不確実性推定手法は、全てのサンプルに対して等しく正確であるヘテロスケダティック区間を与えることができない。 本稿では,深部回帰林から得られた分散度を算出し,各試料の不確かさを推定する手法を提案する。 深い回帰林の分散は,薬物応答予測タスクにおける正規化帰納的共形予測の効率と範囲を改善する。

Deep learning models are being adopted and applied on various critical decision-making tasks, yet they are trained to provide point predictions without providing degrees of confidence. The trustworthiness of deep learning models can be increased if paired with uncertainty estimations. Conformal Prediction has emerged as a promising method to pair machine learning models with prediction intervals, allowing for a view of the model's uncertainty. However, popular uncertainty estimation methods for conformal prediction fail to provide heteroskedastic intervals that are equally accurate for all samples. In this paper, we propose a method to estimate the uncertainty of each sample by calculating the variance obtained from a Deep Regression Forest. We show that the deep regression forest variance improves the efficiency and coverage of normalized inductive conformal prediction on a drug response prediction task.
翻訳日:2024-02-23 17:22:01 公開日:2024-02-21
# スクリーンショットから言語理解を改善する

Improving Language Understanding from Screenshots ( http://arxiv.org/abs/2402.14073v1 )

ライセンス: Link先を確認
Tianyu Gao, Zirui Wang, Adithya Bhaskar, Danqi Chen(参考訳) 単一のビジュアルビュー内でテキストとイメージの両方を処理できる新しい言語モデル(LM)は、チャート理解やUIナビゲーションといった複雑なタスクをアンロックする。 これらのモデルをスクリーンショット言語モデルと呼ぶ。 その魅力にもかかわらず、既存のスクリーンショット LM は言語理解タスクのテキストのみのモデルよりもかなり遅れている。 このギャップを埋めるために、モデル入力がプレーンテキストレンダリングされたスクリーンショットである簡易的な設定を採用し、スクリーンショットLMのテキスト能力の向上に注力する。 本稿では,スクリーンショット中のスクリーンショットとテキストのイメージパッチをマスクし,復元する,新しいPatch-and-Text Prediction (PTP) 手法を提案する。 また,マスキング率とパッチサイズ,トレーニング安定性向上のための設計について広範なアブレーション研究を行った。 我々の事前訓練されたモデルは、単に視覚的な入力を受けながら、8つのGLUEタスクのうち6つ(2%)でBERTと同等のパフォーマンスを達成し、以前の作業よりも最大8%改善します。 さらに,PTPを拡張して自己回帰スクリーンショットLMをトレーニングし,その有効性を示す。 共に、我々の発見が強力なスクリーンショット LM を開発し、広範囲のアプリケーションにリーチを広げるという将来の研究を刺激することを期待している。

An emerging family of language models (LMs), capable of processing both text and images within a single visual view, has the promise to unlock complex tasks such as chart understanding and UI navigation. We refer to these models as screenshot language models. Despite their appeal, existing screenshot LMs substantially lag behind text-only models on language understanding tasks. To close this gap, we adopt a simplified setting where the model inputs are plain-text-rendered screenshots, and we focus on improving the text ability of screenshot LMs. We propose a novel Patch-and-Text Prediction (PTP) objective, which masks and recovers both image patches of screenshots and text within screenshots. We also conduct extensive ablation studies on masking rates and patch sizes, as well as designs for improving training stability. Our pre-trained model, while solely taking visual inputs, achieves comparable performance with BERT on 6 out of 8 GLUE tasks (within 2%) and improves up to 8% over prior work. Additionally, we extend PTP to train autoregressive screenshot LMs and demonstrate its effectiveness--our models can significantly reduce perplexity by utilizing the screenshot context. Together, we hope our findings can inspire future research on developing powerful screenshot LMs and extending their reach to broader applications.
翻訳日:2024-02-23 17:21:47 公開日:2024-02-21
# スケーラブルな1オン量子コンピュータのシャットリング

Shuttling for Scalable Trapped-Ion Quantum Computers ( http://arxiv.org/abs/2402.14065v1 )

ライセンス: Link先を確認
Daniel Schoenberger, Stefan Hillmich, Matthias Brandl, Robert Wille(参考訳) トラップイオン量子コンピュータは、高品質な量子ビットと信頼できる量子計算のためのプラットフォームを提供する有望な可能性を示している。 量子電荷結合デバイス(Quantum Charge Coupled Device, QCCD)アーキテクチャは、スケーラブルな量子コンピュータの実現を可能にするモジュラーソリューションを提供する。 これらのデバイス内では、イオンはトラップ全体と、ストレージ用のメモリゾーンや実際の計算のための処理ゾーンなど、様々な専用ゾーンを通して(移動)移動することができる。 しかし、イオンの量子状態の非一貫性のため、量子ビットは時間とともに量子情報を失う。 したがって、シャットリング操作に必要な時間ステップを最小化する必要がある。 本稿では,デバイス内の動作操作をオーケストレーションする効率的なシャットリングスケジュールを見つけるためのヒューリスティックな手法を提案する。 量子アルゴリズムとデバイスアーキテクチャが与えられた後、提案アルゴリズムは、小型QCCDアーキテクチャのための最小限の時間ステップでシャットリングスケジュールを生成する。 さらに, 大規模QCCD装置においても, ソリューションの品質と性能に関して有望な結果が得られた。

Trapped-ion quantum computers exhibit promising potential to provide platforms for high-quality qubits and reliable quantum computation. The Quantum Charge Coupled Device (QCCD) architecture offers a modular solution to enable the realization of scalable quantum computers, paving the way for practical quantum algorithms with large qubit numbers. Within these devices, ions can be shuttled (moved) throughout the trap and through different dedicated zones, e.g., a memory zone for storage and a processing zone for the actual computation. However, due to the decoherence of the ions' quantum states, the qubits lose their quantum information over time. Thus, the required time steps of shuttling operations should be minimized. In this paper, we propose a heuristic approach to finding an efficient shuttling schedule, which orchestrates the movement operations within the device. Given a quantum algorithm and a device architecture, the proposed algorithm produces shuttling schedules with a close-to-minimal amount of time steps for small-size QCCD architectures. Furthermore, even for large-scale QCCD devices, the empirical evaluation shows promising results with respect to the quality of the solution as well as performance.
翻訳日:2024-02-23 17:21:24 公開日:2024-02-21
# キーフレーズ生成のためのエンコーダ専用事前学習言語モデルの利用について

On Leveraging Encoder-only Pre-trained Language Models for Effective Keyphrase Generation ( http://arxiv.org/abs/2402.14052v1 )

ライセンス: Link先を確認
Di Wu, Wasi Uddin Ahmad, Kai-Wei Chang(参考訳) 本研究は、エンコーダ-デコーダモデルと比較して、ドメイン調整エンコーダのみのモデルが広く利用可能である中で、キーフレーズ生成(KPG)におけるエンコーダ専用事前訓練言語モデル(PLM)の適用について述べる。 KPGにおけるエンコーダのみ PLM の有効性,(2) KPGにおけるエンコーダのみ PLM の最適なアーキテクチャ決定,(3) ドメイン内エンコーダのみ PLM とエンコーダ側 PLM の各種リソース設定における性能比較,の3点について検討する。 2つの領域での広範な実験から得られた知見は、エンコーダのみのPLMでは、条件付きランダムフィールドを持つKPEは、現在のキーフレーズの同定においてわずかに優れているが、KPGの定式化はキーフレーズ予測の幅広いスペクトルを表現していることを示している。 さらに、エンコーダのみの PLM のプレフィックス-LM 微調整は、汎用領域 Seq2seq PLM よりも優れた KPG の強力なデータ効率戦略として現れる。 また,エンコーダのみの PLM を初期化したエンコーダデコーダアーキテクチャを用いる場合,幅よりもモデル深さに対するパラメータ割り当てが望ましい。 この研究は、エンコーダのみのPLMをKPGシステムの発展に活用する可能性に光を当て、今後のKPG手法の基礎を提供する。 私たちのコードと事前訓練されたチェックポイントはhttps://github.com/uclanlp/DeepKPG.orgで公開されています。

This study addresses the application of encoder-only Pre-trained Language Models (PLMs) in keyphrase generation (KPG) amidst the broader availability of domain-tailored encoder-only models compared to encoder-decoder models. We investigate three core inquiries: (1) the efficacy of encoder-only PLMs in KPG, (2) optimal architectural decisions for employing encoder-only PLMs in KPG, and (3) a performance comparison between in-domain encoder-only and encoder-decoder PLMs across varied resource settings. Our findings, derived from extensive experimentation in two domains reveal that with encoder-only PLMs, although KPE with Conditional Random Fields slightly excels in identifying present keyphrases, the KPG formulation renders a broader spectrum of keyphrase predictions. Additionally, prefix-LM fine-tuning of encoder-only PLMs emerges as a strong and data-efficient strategy for KPG, outperforming general-domain seq2seq PLMs. We also identify a favorable parameter allocation towards model depth rather than width when employing encoder-decoder architectures initialized with encoder-only PLMs. The study sheds light on the potential of utilizing encoder-only PLMs for advancing KPG systems and provides a groundwork for future KPG methods. Our code and pre-trained checkpoints are released at https://github.com/uclanlp/DeepKPG.
翻訳日:2024-02-23 17:21:07 公開日:2024-02-21
# 気候データセットの極端ダウンスケーリングのための生成的敵対モデル

Generative Adversarial Models for Extreme Downscaling of Climate Datasets ( http://arxiv.org/abs/2402.14049v1 )

ライセンス: Link先を確認
Guiye Li and Guofeng Cao(参考訳) 気候変動の課題に対処するには、気候変数と気象変数の正確な高分解能マッピングが必要である。 しかし、最先端の数値気候モデル(例えば一般循環モデル)のグリッド出力のような既存の気候データセットの多くは、モデルの複雑さと非常に高い計算需要のために、非常に粗い空間分解能でのみ利用可能である。 深層学習に基づく手法、特にGAN(Generative Adversarial Network)とその変種は、自然画像の精細化に有効であることが証明され、科学的データセットの改善に大きな可能性を示している。 本稿では,格子状気候データセットの極端ダウンスケーリングのための条件付きGANに基づく地理空間的ダウンスケーリング手法について述べる。 既存の手法と比較すると、非常に低解像度の入力から高精度な気候データセットを生成することができる。 さらに重要なのは、既存のメソッドでは無視される傾向があるダウンスケーリングプロセスに固有の不確実性を明確に考慮することです。 入力が与えられた場合、1つの決定論的結果ではなく、多値な高分解能サンプルを生成することができる。 これらのサンプルは、モデルの不確実性と堅牢性の実証的な探索と推論を可能にする。 With a case study of gridded climate datasets (wind velocity and solar irradiance), we demonstrate the performances of the framework in downscaling tasks with very high scaling factors (up to $64\times$) and highlight the advantages of the framework with a comprehensive comparison with commonly used downscaling methods, including area-to-point (ATP) kriging, deep image prior (DIP), enhanced deep super-resolution network (EDSR), enhanced super-resolution generative adversarial networks (ESRGAN), and physics-informed resolution-enhancing GAN (PhIRE GAN).

Addressing the challenges of climate change requires accurate and high-resolution mapping of climate and weather variables. However, many existing climate datasets, such as the gridded outputs of the state-of-the-art numerical climate models (e.g., general circulation models), are only available at very coarse spatial resolutions due to the model complexity and extremely high computational demand. Deep-learning-based methods, particularly generative adversarial networks (GANs) and their variants, have proved effective for refining natural images, and have shown great promise in improving scientific datasets. In this paper, we describe a conditional GAN-based geospatial downscaling method for extreme downscaling of gridded climate datasets. Compared to most existing methods, the method can generate high-resolution accurate climate datasets from very low-resolution inputs. More importantly, the method explicitly considers the uncertainty inherent to the downscaling process that tends to be ignored in existing methods. Given an input, the method can produce a multitude of plausible high-resolution samples instead of one single deterministic result. These samples allow for an empirical exploration and inferences of model uncertainty and robustness. With a case study of gridded climate datasets (wind velocity and solar irradiance), we demonstrate the performances of the framework in downscaling tasks with very high scaling factors (up to $64\times$) and highlight the advantages of the framework with a comprehensive comparison with commonly used downscaling methods, including area-to-point (ATP) kriging, deep image prior (DIP), enhanced deep super-resolution network (EDSR), enhanced super-resolution generative adversarial networks (ESRGAN), and physics-informed resolution-enhancing GAN (PhIRE GAN).
翻訳日:2024-02-23 17:20:43 公開日:2024-02-21
# polynet:ニューラルコンビネート最適化のための多様なソリューション戦略の学習

PolyNet: Learning Diverse Solution Strategies for Neural Combinatorial Optimization ( http://arxiv.org/abs/2402.14048v1 )

ライセンス: Link先を確認
Andr\'e Hottung, Mridul Mahajan, Kevin Tierney(参考訳) 組合せ最適化問題の解を構築するための強化学習に基づく手法が,人間設計アルゴリズムの性能に急速に近づいている。 さらにギャップを狭めるために、学習に基づくアプローチは、探索プロセス中に解空間を効率的に探索する必要がある。 近年のアプローチでは,手作りのルールによる多様なソリューション生成による探索を人工的に向上するが,これらのルールはソリューションの品質を損なう可能性があり,より複雑な問題の設計が困難である。 本稿では,補完的なソリューション戦略を学習することで,ソリューション空間の探索を改善するアプローチであるPolyNetを紹介する。 他の作業とは対照的に、PolyNetはシングルデコーダとトレーニングスキーマのみを使用し、手作りのルールによる多様なソリューション生成を強制しない。 我々は,4つの組合せ最適化問題に対してPolyNetを評価し,暗黙の多様性メカニズムにより,PolyNetが明らかに強制された多様なソリューション生成のアプローチよりも優れた解を見つけることができることを示した。

Reinforcement learning-based methods for constructing solutions to combinatorial optimization problems are rapidly approaching the performance of human-designed algorithms. To further narrow the gap, learning-based approaches must efficiently explore the solution space during the search process. Recent approaches artificially increase exploration by enforcing diverse solution generation through handcrafted rules, however, these rules can impair solution quality and are difficult to design for more complex problems. In this paper, we introduce PolyNet, an approach for improving exploration of the solution space by learning complementary solution strategies. In contrast to other works, PolyNet uses only a single-decoder and a training schema that does not enforce diverse solution generation through handcrafted rules. We evaluate PolyNet on four combinatorial optimization problems and observe that the implicit diversity mechanism allows PolyNet to find better solutions than approaches the explicitly enforce diverse solution generation.
翻訳日:2024-02-23 17:20:21 公開日:2024-02-21
# Wikibench: WikipediaによるAI評価のためのコミュニティ駆動のデータキュレーション

Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia ( http://arxiv.org/abs/2402.14147v1 )

ライセンス: Link先を確認
Tzu-Sheng Kuo, Aaron Halfaker, Zirui Cheng, Jiwoo Kim, Meng-Hsin Wu, Tongshuang Wu, Kenneth Holstein, Haiyi Zhu(参考訳) AIツールは、コミュニティのコンテキストにますますデプロイされる。 しかしながら、AIを評価するために使用されるデータセットは、通常、所定のコミュニティ外の開発者やアノテータによって作成されます。 コミュニティに、それに影響を与えるAIの評価データセットを意図的に設計し、キュレーションする権限を与えるにはどうすればよいのか? この質問は、複数のAIベースのコンテンツモデレーションツールをデプロイしたオンラインコミュニティであるWikipediaで調査する。 議論を通じてあいまいさや視点の違いをナビゲートしながら、コミュニティが共同でai評価データセットをキュレートできるシステムwikibenchを紹介する。 Wikipediaのフィールドスタディによると、Wikibenchを使ってキュレートされたデータセットは、コミュニティのコンセンサス、不一致、不確実性を効果的に捉えることができる。 さらに、研究参加者はWikibenchを使用して、ラベル定義の精細化、データ含意基準の決定、データステートメントのオーサリングなど、データキュレーションの全体を形成する。 そこで本研究では,コミュニティ主導のデータキュレーションを支援するシステムの今後の方向性を提案する。

AI tools are increasingly deployed in community contexts. However, datasets used to evaluate AI are typically created by developers and annotators outside a given community, which can yield misleading conclusions about AI performance. How might we empower communities to drive the intentional design and curation of evaluation datasets for AI that impacts them? We investigate this question on Wikipedia, an online community with multiple AI-based content moderation tools deployed. We introduce Wikibench, a system that enables communities to collaboratively curate AI evaluation datasets, while navigating ambiguities and differences in perspective through discussion. A field study on Wikipedia shows that datasets curated using Wikibench can effectively capture community consensus, disagreement, and uncertainty. Furthermore, study participants used Wikibench to shape the overall data curation process, including refining label definitions, determining data inclusion criteria, and authoring data statements. Based on our findings, we propose future directions for systems that support community-driven data curation.
翻訳日:2024-02-23 17:15:33 公開日:2024-02-21
# マルチスタイル制御型生成のための動的マルチリワード重み付けによる強化学習

Reinforcement Learning with Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation ( http://arxiv.org/abs/2402.14146v1 )

ライセンス: Link先を確認
Karin de Langis, Ryan Koo, Dongyeop Kang(参考訳) スタイルは、対人関係のダイナミクス(形式性など)や著者の感情や態度(嫌悪感など)を含む多様な情報を表現するテキストの不可欠な構成要素である。 人間はしばしば複数のスタイルを同時に使用する。 オープンな疑問は、大きな言語モデルがどのように明示的に制御され、テキストを生成する際にターゲットスタイルを織り合わせるかである。 以前の研究では、単一のスタイルの生成、あるいはスタイルやその他の属性の制御された生成を調査している。 本稿では,複数のスタイルを同時に制御できるように拡張する。 具体的には、強化学習(RL)による多型生成のための多型報酬の様々な定式化について検討する。 これらの報酬の定式化には、判別器からの校正出力と、判別器勾配等級による動的重み付けが含まれる。 動的重み付けは静的重み付けアプローチよりも一般的に優れており,プラグ・アンド・プレイモデルのような強力なベースラインと比較しても,その効果を2・3スタイルの制御で検討する。 複数のスタイル属性を持つRLパイプラインのコードとデータはすべて公開されている。

Style is an integral component of text that expresses a diverse set of information, including interpersonal dynamics (e.g. formality) and the author's emotions or attitudes (e.g. disgust). Humans often employ multiple styles simultaneously. An open question is how large language models can be explicitly controlled so that they weave together target styles when generating text: for example, to produce text that is both negative and non-toxic. Previous work investigates the controlled generation of a single style, or else controlled generation of a style and other attributes. In this paper, we expand this into controlling multiple styles simultaneously. Specifically, we investigate various formulations of multiple style rewards for a reinforcement learning (RL) approach to controlled multi-style generation. These reward formulations include calibrated outputs from discriminators and dynamic weighting by discriminator gradient magnitudes. We find that dynamic weighting generally outperforms static weighting approaches, and we explore its effectiveness in 2- and 3-style control, even compared to strong baselines like plug-and-play model. All code and data for RL pipelines with multiple style attributes will be publicly available.
翻訳日:2024-02-23 17:15:14 公開日:2024-02-21
# 多重領域を用いた局所分布シフトの多重ロバスト推定

Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains ( http://arxiv.org/abs/2402.14145v1 )

ライセンス: Link先を確認
Steven Wilkins-Reeves, Xu Chen, Qi Ma, Christine Agarwal, Aude Hofleitner(参考訳) 分散シフトは、現実世界の機械学習アプリケーションではユビキタスであり、あるデータディストリビューションでトレーニングされたモデルの一般化に挑戦している。 データ分布が全人口の複数のセグメントで異なるシナリオに注目し、各セグメント内のトレーニングとテスト(デプロイ)の分布の違いについてのみ局所的な仮定を行う。 グラフデータ解析において各セグメントのモデル性能を改善するための2段階多重ロバスト推定法を提案する。 この方法は、複数のセグメントからのトレーニングデータのクラスタを用いて学習したベースモデルの線形結合を、各セグメントに対する改良ステップとしてフィッティングする。 本手法は市販の機械学習モデルを用いて実装されている。 テストリスクに対する方法の一般化境界に関する理論的保証を確立する。 合成データと実データに関する広範囲な実験により,提案手法は回帰と分類タスクの両方において,予測精度とロバスト性において既存の代替法よりも大幅に改善できることを実証した。 また,大規模テクノロジー企業のユーザシティ予測データセット上での有効性を評価する。

Distribution shifts are ubiquitous in real-world machine learning applications, posing a challenge to the generalization of models trained on one data distribution to another. We focus on scenarios where data distributions vary across multiple segments of the entire population and only make local assumptions about the differences between training and test (deployment) distributions within each segment. We propose a two-stage multiply robust estimation method to improve model performance on each individual segment for tabular data analysis. The method involves fitting a linear combination of the based models, learned using clusters of training data from multiple segments, followed by a refinement step for each segment. Our method is designed to be implemented with commonly used off-the-shelf machine learning models. We establish theoretical guarantees on the generalization bound of the method on the test risk. With extensive experiments on synthetic and real datasets, we demonstrate that the proposed method substantially improves over existing alternatives in prediction accuracy and robustness on both regression and classification tasks. We also assess its effectiveness on a user city prediction dataset from a large technology company.
翻訳日:2024-02-23 17:14:55 公開日:2024-02-21
# SecurePose:臨床現場で録画されたビデオから顔のブラッシングと人体運動キネマティクスを抽出する

SecurePose: Automated Face Blurring and Human Movement Kinematics Extraction from Videos Recorded in Clinical Settings ( http://arxiv.org/abs/2402.14143v1 )

ライセンス: Link先を確認
Rishabh Bajpai and Bhooma Aravamuthan(参考訳) 運動障害は通常、臨床に取得した患者ビデオのコンセンサスに基づく専門家による評価によって診断される。 しかし、このような患者ビデオの広範な共有は、患者のプライバシーにリスクをもたらす。 顔のぼやけはビデオの非識別に利用できるが、このプロセスは手作業や時間を要することが多い。 自動化された顔のぼかし技術は、過度に、一貫性がなく、あるいは顔のぼかしが不十分である。 さらに、これらのビデオにおける運動障害の評価は、しばしば主観的である。 定量化可能なキネマティックな特徴の抽出は、これらのビデオの運動障害の評価に役立ちますが、既存の方法では、プレブレンドビデオを使用するとエラーが発生しやすいのです。 我々は,iPadを用いた診療現場で記録された患者ビデオの顔のぼかしと自動キネマティック抽出を両立できるSecurePoseというオープンソースソフトウェアを開発した。 SecurePoseは、ポーズ推定方法(OpenPose)を使用してキネマティクスを抽出し、ビデオ内のすべての個人を追跡し、一意に識別し、患者を特定し、顔のぼやけを行う。 本ソフトウェアは脳性麻痺児116例の外来診療で記録した歩行映像に基づいて検証した。 検証は、手作業によるぼやけによるキネマティックな抽出と顔のぼやけの中間段階を評価することを含む。 また, 従来の6つの方法と比較した場合, 自動顔検出の他の手法を上回り, 頑健な手作業による顔のぼやきよりも91.08%少ない時間で天井精度を達成した。 さらに、経験豊富な10人の研究者が、システムユーザビリティのスケールで証明されたように、secureposeの学習と使用が容易であることを見出した。 本研究は,顔のぼやけやキネマティックス抽出のための歩行ビデオにおけるsecureposeの性能とユーザビリティを検証した。

Movement disorders are typically diagnosed by consensus-based expert evaluation of clinically acquired patient videos. However, such broad sharing of patient videos poses risks to patient privacy. Face blurring can be used to de-identify videos, but this process is often manual and time-consuming. Available automated face blurring techniques are subject to either excessive, inconsistent, or insufficient facial blurring - all of which can be disastrous for video assessment and patient privacy. Furthermore, assessing movement disorders in these videos is often subjective. The extraction of quantifiable kinematic features can help inform movement disorder assessment in these videos, but existing methods to do this are prone to errors if using pre-blurred videos. We have developed an open-source software called SecurePose that can both achieve reliable face blurring and automated kinematic extraction in patient videos recorded in a clinic setting using an iPad. SecurePose, extracts kinematics using a pose estimation method (OpenPose), tracks and uniquely identifies all individuals in the video, identifies the patient, and performs face blurring. The software was validated on gait videos recorded in outpatient clinic visits of 116 children with cerebral palsy. The validation involved assessing intermediate steps of kinematics extraction and face blurring with manual blurring (ground truth). Moreover, when SecurePose was compared with six selected existing methods, it outperformed other methods in automated face detection and achieved ceiling accuracy in 91.08% less time than a robust manual face blurring method. Furthermore, ten experienced researchers found SecurePose easy to learn and use, as evidenced by the System Usability Scale. The results of this work validated the performance and usability of SecurePose on clinically recorded gait videos for face blurring and kinematics extraction.
翻訳日:2024-02-23 17:14:37 公開日:2024-02-21
# NeuroFlux: 適応型局所学習を用いたメモリ効率の良いCNNトレーニング

NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning ( http://arxiv.org/abs/2402.14139v1 )

ライセンス: Link先を確認
Dhananjay Saikumar and Blesson Varghese(参考訳) リソース制約のあるモバイルおよびエッジ環境での効率的なon-device convolutional neural network(cnn)トレーニングは、オープンチャレンジである。 バックプロパゲーションは標準のアプローチであるが、GPUメモリに保持されるCNNモデル全体で中間的なアクティベーションを要求する層間依存関係が強いため、GPUメモリ集約である。 これにより、利用可能なGPUメモリ予算内でのトレーニングを可能にするために、バッチサイズを小さくする必要があるが、結果として、実質的かつ非現実的なトレーニング時間が得られる。 本稿では,メモリ制限シナリオに適した新しいCNNトレーニングシステムであるNeuroFluxを紹介する。 まず,gpuメモリ使用量を削減するために可変数のフィルタを用いる適応型補助ネットワークと,gpuメモリ制約に対応するだけでなく,トレーニングプロセスを高速化するブロック固有の適応型バッチサイズである。 neurofluxは、cnnをgpuメモリ使用量に基づいてブロックにセグメンテーションし、さらにこれらのブロックの各レイヤに補助ネットワークをアタッチする。 これによって,新たなトレーニングパラダイムである‘適応型ローカル学習’の下で,典型的なレイヤ依存関係が破壊される。 さらにNeuroFluxは、中間アクティベーションを積極的にキャッシュし、以前にトレーニングされたブロックの冗長なフォワードパスを排除し、トレーニングプロセスをさらに加速する。 様々なハードウェアプラットフォームにおいて、neurofluxは、厳密なgpuメモリ予算の下で2.3$\times$から6.1$\times$のトレーニングスピードアップを示し、neurofluxは、10.9$\times$から29.4$\times$の合理化されたモデルを生成する。

Efficient on-device convolutional neural network (CNN) training in resource-constrained mobile and edge environments is an open challenge. Backpropagation is the standard approach adopted, but it is GPU memory intensive due to its strong inter-layer dependencies that demand intermediate activations across the entire CNN model to be retained in GPU memory. This necessitates smaller batch sizes to make training possible within the available GPU memory budget, but in turn, results in a substantially high and impractical training time. We introduce NeuroFlux, a novel CNN training system tailored for memory-constrained scenarios. We develop two novel opportunities: firstly, adaptive auxiliary networks that employ a variable number of filters to reduce GPU memory usage, and secondly, block-specific adaptive batch sizes, which not only cater to the GPU memory constraints but also accelerate the training process. NeuroFlux segments the CNNs into blocks based on GPU memory usage and further attaches an auxiliary network to each layer in these blocks. This disrupts the typical layer dependencies under a new training paradigm - 'adaptive local learning'. Moreover, NeuroFlux adeptly caches intermediate activations, eliminating redundant forward passes over previously trained blocks, further accelerating the training process. The results are twofold when compared to Backpropagation: on various hardware platforms, NeuroFlux demonstrates training speed-ups of 2.3$\times$ to 6.1$\times$ under stringent GPU memory budgets, and NeuroFlux generates streamlined models that have 10.9$\times$ to 29.4$\times$ fewer parameters without sacrificing accuracy.
翻訳日:2024-02-23 17:14:04 公開日:2024-02-21
# GDTM:分散マルチモーダルセンサを用いた屋内地理空間追跡データセット

GDTM: An Indoor Geospatial Tracking Dataset with Distributed Multimodal Sensors ( http://arxiv.org/abs/2402.14136v1 )

ライセンス: Link先を確認
Ho Lyun Jeong, Ziqi Wang, Colin Samplawski, Jason Wu, Shiwei Fang, Lance M. Kaplan, Deepak Ganesan, Benjamin Marlin, Mani Srivastava(参考訳) 移動物体、すなわち地理空間追跡は、自律的な建築インフラにとって不可欠である。 高精度でロバストな地理空間追跡は、様々なセンサタイプからタイムアラインな同期データを必要とする大規模なデータセットを必要とするマルチモーダルセンサフュージョンアルゴリズムを利用することが多い。 しかし、そのようなデータセットは簡単には利用できない。 そこで本研究では,分散マルチモーダルセンサと再構成可能なセンサノード配置を用いた,多モーダル物体追跡のための9時間データセットGDTMを提案する。 このデータセットは,マルチモーダルデータの処理のためのアーキテクチャの最適化や,モデルのロバスト性の調査など,いくつかの研究課題の探索を可能にする。 この作業のコード、サンプルデータ、チェックポイントを含むGitHubリポジトリはhttps://github.com/nesl/GDTMで公開されている。

Constantly locating moving objects, i.e., geospatial tracking, is essential for autonomous building infrastructure. Accurate and robust geospatial tracking often leverages multimodal sensor fusion algorithms, which require large datasets with time-aligned, synchronized data from various sensor types. However, such datasets are not readily available. Hence, we propose GDTM, a nine-hour dataset for multimodal object tracking with distributed multimodal sensors and reconfigurable sensor node placements. Our dataset enables the exploration of several research problems, such as optimizing architectures for processing multimodal data, and investigating models' robustness to adverse sensing conditions and sensor placement variances. A GitHub repository containing the code, sample data, and checkpoints of this work is available at https://github.com/nesl/GDTM.
翻訳日:2024-02-23 17:13:35 公開日:2024-02-21
# 点状不純物を持つ接環の連続体の束縛状態

Bound states in the continuum in a tangential ring with pointlike impurities ( http://arxiv.org/abs/2402.14134v1 )

ライセンス: Link先を確認
M.A. Figueroa, Vladimir Juricic, P.A. Orellana(参考訳) 外部ナノワイヤと結合した量子環は、量子メゾスコピック輸送を操作するための汎用プラットフォームを提供する。 ここでは,周期的に分布する点状不純物を含むシステムについて検討する。 ここで見られるコンダクタンスの正確な表現に基づいて、連続体(bics)における境界状態が、環のブリルアンゾーンの高対称性モーメントにおける環状態から形成されることを実証する。 さらに、反転対称性の存在は共鳴状態の選択的分離を可能にし、bic生成を支持し、従って系の量子輸送において余分なチューナビリティを許容する。 最後に、磁気フラックスとラシュバスピン軌道結合が、側結合量子環におけるBIC形成の他の経路となることを示唆する。

Quantum rings coupled to external nanowires offer a versatile platform for the manipulation of the quantum mesoscopic transport. We here study such a system including periodically distributed pointlike impurities along the ring. Based on an exact expression for the conductance found here, we demonstrate that the bound-states in continuum (BICs) form from the ring states at the high-symmetry momenta in the ring's Brillouin zone. Furthermore, the presence of the inversion symmetry allows for a selective decoupling of resonant states, favoring the BIC generation and therefore allowing an extra tunability in the quantum transport of the system. Finally, we suggest that the magnetic fluxes and Rashba spin-orbit coupling offer other possible routes for the BIC formation in laterally coupled quantum rings.
翻訳日:2024-02-23 17:13:22 公開日:2024-02-21
# 弱信号検出と物理情報抽出のためのランダム林:磁気ナビゲーションを事例として

Random forests for detecting weak signals and extracting physical information: a case study of magnetic navigation ( http://arxiv.org/abs/2402.14131v1 )

ライセンス: Link先を確認
Mohammadamin Moradi, Zheng-Meng Zhai, Aaron Nielsen, Ying-Cheng Lai(参考訳) 近年,2つの機械学習アーキテクチャ(リザーバコンピューティングと時間遅延フィードフォワードニューラルネットワーク)が,gpsを固定した環境での磁気航法のための膨大な複雑な信号に没入する地球の異常磁場の検出に活用できることが実証された。 検出された異常場の精度は、10~40mの範囲における位置決め精度に相当する。 弱信号検出の精度を高め,不確実性を低減し,位置情報を直接取得するために,複数の決定木の出力を組み合わせたランダム森林の機械学習モデルを用いて,物理量の最適値を与える。 特に, 飛行中の航空機のコックピットから収集した時系列データから, 地球磁場の他の要素やコックピット内の電子系が生成する磁場によって, 強い背景複雑な信号が引き起こされる状況において, ランダムフォレストアルゴリズムは, 弱い異常な磁場を検出し, 航空機の位置をフィルタリングする際に, 極めて良好に動作することを示した。 従来の慣性航法システムの助けを借りて、位置決め誤差を10m未満に減らすことができる。 また,従来の知見とは対照的に,航空機本体の磁場を校正・除去するための古典的トーラス・ローソン模型は不要であり,ランダムフォレスト法の成功に不利である可能性もある。

It was recently demonstrated that two machine-learning architectures, reservoir computing and time-delayed feed-forward neural networks, can be exploited for detecting the Earth's anomaly magnetic field immersed in overwhelming complex signals for magnetic navigation in a GPS-denied environment. The accuracy of the detected anomaly field corresponds to a positioning accuracy in the range of 10 to 40 meters. To increase the accuracy and reduce the uncertainty of weak signal detection as well as to directly obtain the position information, we exploit the machine-learning model of random forests that combines the output of multiple decision trees to give optimal values of the physical quantities of interest. In particular, from time-series data gathered from the cockpit of a flying airplane during various maneuvering stages, where strong background complex signals are caused by other elements of the Earth's magnetic field and the fields produced by the electronic systems in the cockpit, we demonstrate that the random-forest algorithm performs remarkably well in detecting the weak anomaly field and in filtering the position of the aircraft. With the aid of the conventional inertial navigation system, the positioning error can be reduced to less than 10 meters. We also find that, contrary to the conventional wisdom, the classic Tolles-Lawson model for calibrating and removing the magnetic field generated by the body of the aircraft is not necessary and may even be detrimental for the success of the random-forest method.
翻訳日:2024-02-23 17:13:10 公開日:2024-02-21
# Web上の半構造化情報抽出のための言語モデルとグラフモデルの組み合わせ

Combining Language and Graph Models for Semi-structured Information Extraction on the Web ( http://arxiv.org/abs/2402.14129v1 )

ライセンス: Link先を確認
Zhi Hong, Kyle Chard and Ian Foster(参考訳) 関係抽出は、ウェブ上で人間の知識の異常な富を発掘する効率的な方法である。 既存のメソッドは、ドメイン固有のトレーニングデータに依存するか、あるいはノイズのアウトプットを生成する。 ここでは,関係の簡潔な説明のみを与えられた半構造化webページから対象関係を抽出することに焦点を当てる。 本稿では,共同グラフと言語モデル構造に基づくオープンドメイン情報抽出手法であるGraphScholarBERTを提案する。 GraphScholarBERTは、追加データやトレーニングなしで、これまで見られなかったドメインに一般化することができ、検索キーワードにマッチしたクリーンな抽出結果のみを生成する。 実験の結果、GraphScholarBERTはゼロショットドメインとゼロショットWebサイト設定での以前の作業と比較して、F1スコアの抽出を最大34.8倍改善できることがわかった。

Relation extraction is an efficient way of mining the extraordinary wealth of human knowledge on the Web. Existing methods rely on domain-specific training data or produce noisy outputs. We focus here on extracting targeted relations from semi-structured web pages given only a short description of the relation. We present GraphScholarBERT, an open-domain information extraction method based on a joint graph and language model structure. GraphScholarBERT can generalize to previously unseen domains without additional data or training and produces only clean extraction results matched to the search keyword. Experiments show that GraphScholarBERT can improve extraction F1 scores by as much as 34.8\% compared to previous work in a zero-shot domain and zero-shot website setting.
翻訳日:2024-02-23 17:12:44 公開日:2024-02-21
# DeiSAM: Deictic Promptingを使ったセグメンテーション

DeiSAM: Segment Anything with Deictic Prompting ( http://arxiv.org/abs/2402.14123v1 )

ライセンス: Link先を確認
Hikaru Shindo, Manuel Brack, Gopika Sudhakaran, Devendra Singh Dhami, Patrick Schramowski, Kristian Kersting(参考訳) 大規模で事前学習されたニューラルネットワークは、ゼロショット画像のセグメンテーションなど、さまざまなタスクにおいて強力な能力を示している。 複雑な場面で具体的対象を特定するために、人間は自然言語における直観的な記述、すなわち「机の上とカップの後ろの物体」のような文脈に依拠する何かに本能的に依存する。 しかし、複雑なシナリオにおける推論能力の欠如により、深層学習のアプローチは、このような難解な表現を確実に解釈することはできない。 この問題を修正するために、私たちは、DeiSAM(Deictic promptable segmentationのための、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせ)を提案する。 複雑なテキストセグメンテーションの記述が与えられた後、DeiSAMはLarge Language Models (LLM)を活用して一階論理ルールを生成し、生成されたシーングラフ上で微分可能な前方推論を行う。 その後、DeiSAMはオブジェクトを論理的に推論された画像領域にマッチさせてセグメント化する。 評価の一環として,2組の視覚入力と複雑なテキストプロンプトを含むDeictic Visual Genome (DeiVG)データセットを提案する。 実験結果から,DeiSAMは純粋にデータ駆動のベースラインよりも大幅に改善され,難解なセグメンテーションが可能であった。

Large-scale, pre-trained neural networks have demonstrated strong capabilities in various tasks, including zero-shot image segmentation. To identify concrete objects in complex scenes, humans instinctively rely on deictic descriptions in natural language, i.e., referring to something depending on the context such as "The object that is on the desk and behind the cup.". However, deep learning approaches cannot reliably interpret such deictic representations due to their lack of reasoning capabilities in complex scenarios. To remedy this issue, we propose DeiSAM -- a combination of large pre-trained neural networks with differentiable logic reasoners -- for deictic promptable segmentation. Given a complex, textual segmentation description, DeiSAM leverages Large Language Models (LLMs) to generate first-order logic rules and performs differentiable forward reasoning on generated scene graphs. Subsequently, DeiSAM segments objects by matching them to the logically inferred image regions. As part of our evaluation, we propose the Deictic Visual Genome (DeiVG) dataset, containing paired visual input and complex, deictic textual prompts. Our empirical results demonstrate that DeiSAM is a substantial improvement over purely data-driven baselines for deictic promptable segmentation.
翻訳日:2024-02-23 17:12:30 公開日:2024-02-21
# 創発的スパーシティに対するマスク行列乗法

Masked Matrix Multiplication for Emergent Sparsity ( http://arxiv.org/abs/2402.14118v1 )

ライセンス: Link先を確認
Brian Wheatman, Meghana Madhyastha, and Randal Burns(参考訳) 人工知能のワークロード、特にトランスフォーマーモデルは、計算が高密度データへの選択的なスパースアクセスを実行する創発的な空間を示す。 ワークロードは、高密度な計算用に設計されたハードウェアでは非効率であり、スパースデータ表現にうまくマッピングできない。 ベクトル化並列行列乗算システム A X B = C を構築し,不必要な計算を排除し,スパーシティのランタイム評価に基づいて分岐を回避する。 我々は動的コード検索の組み合わせを用いて,B行列に符号化された特定の疎度に適応し,A行列とB行列の疎度マップを前処理することで,計算全体の条件分岐を計算する。 60% から 95% まで幅広い範囲において,Intel MKL の高密度あるいは疎度行列乗算ルーチンと比較して命令の少ない実行と性能の向上を実現している。 利点は2倍のスピードアップと4倍の命令で得られる。

Artificial intelligence workloads, especially transformer models, exhibit emergent sparsity in which computations perform selective sparse access to dense data. The workloads are inefficient on hardware designed for dense computations and do not map well onto sparse data representations. We build a vectorized and parallel matrix-multiplication system A X B = C that eliminates unnecessary computations and avoids branches based on a runtime evaluation of sparsity. We use a combination of dynamic code lookup to adapt to the specific sparsity encoded in the B matrix and preprocessing of sparsity maps of the A and B matrices to compute conditional branches once for the whole computation. For a wide range of sparsity, from 60% to 95% zeros, our implementation performs fewer instructions and increases performance when compared with Intel MKL's dense or sparse matrix multiply routines. Benefits can be as large as 2 times speedup and 4 times fewer instructions.
翻訳日:2024-02-23 17:12:07 公開日:2024-02-21
# FanOutQA: 大規模言語モデルに対するマルチホップ・マルチドキュメント質問回答

FanOutQA: Multi-Hop, Multi-Document Question Answering for Large Language Models ( http://arxiv.org/abs/2402.14116v1 )

ライセンス: Link先を確認
Andrew Zhu and Alyssa Hwang and Liam Dugan and Chris Callison-Burch(参考訳) 日々のシナリオでよく見られる質問の1つは、'ファンアウト'の質問、複雑なマルチホップ、マルチドキュメント推論の質問であり、多数のエンティティに関する情報を見つける必要がある。 しかし,大規模な言語モデルでは,このような質問応答能力を評価するリソースは少ない。 llmsの複雑な推論をより完全に評価するために、fanoutqaという、ファンアウトの質問応答ペアの高品質なデータセットと、英語のwikipediaを知識ベースとして人間が注釈付き分解を提案する。 我々は、GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化した。 私たちはデータセットとオープンソースツールを提供し、https://fanoutqa.comで評価を促進するためにモデルを実行しています。

One type of question that is commonly found in day-to-day scenarios is ``fan-out'' questions, complex multi-hop, multi-document reasoning questions that require finding information about a large number of entities. However, there exist few resources to evaluate this type of question-answering capability among large language models. To evaluate complex reasoning in LLMs more fully, we present FanOutQA, a high-quality dataset of fan-out question-answer pairs and human-annotated decompositions with English Wikipedia as the knowledge base. We formulate three benchmark settings across our dataset and benchmark 7 LLMs, including GPT-4, LLaMA 2, Claude-2.1, and Mixtral-8x7B, finding that contemporary models still have room to improve reasoning over inter-document dependencies in a long context. We provide our dataset and open-source tools to run models to encourage evaluation at https://fanoutqa.com
翻訳日:2024-02-23 17:11:51 公開日:2024-02-21
# 乳腺病変セグメンテーションにおけるマルチオルガン自己教師付きコントラスト学習

Multi-organ Self-supervised Contrastive Learning for Breast Lesion Segmentation ( http://arxiv.org/abs/2402.14114v1 )

ライセンス: Link先を確認
Hugo Figueiras, Helena Aidos, Nuno Cruz Garcia(参考訳) 自己教師付き学習は、医用画像などの注釈付きラベルが不足している領域で表現を学ぶ効果的な方法であることが証明されている。 この目的のために広く採用されているフレームワークは対照的な学習であり、異なるシナリオに適用されている。 本稿では,臓器関連目標タスクに適した事前学習モデルに,複数臓器データセットを活用するという,新たな視点を探求することで,コントラスト学習フレームワークの理解を深めることを目的とする。 具体的には,超音波画像における乳腺腫瘍の分節化が目的である。 事前訓練されたデータセットには、肺や心臓などの他の臓器からの超音波画像と、自然画像の大規模なデータセットが含まれる。 その結果,従来のコントラスト学習事前学習は,教師付きベースラインアプローチに比べて性能が向上することがわかった。 さらに,ラベル付きデータの半分だけを微調整した場合,事前学習したモデルで同等の性能が得られる。 また,下流作業におけるパフォーマンス向上のために,臓器データに対する事前学習の利点も示した。

Self-supervised learning has proven to be an effective way to learn representations in domains where annotated labels are scarce, such as medical imaging. A widely adopted framework for this purpose is contrastive learning and it has been applied to different scenarios. This paper seeks to advance our understanding of the contrastive learning framework by exploring a novel perspective: employing multi-organ datasets for pre-training models tailored to specific organ-related target tasks. More specifically, our target task is breast tumour segmentation in ultrasound images. The pre-training datasets include ultrasound images from other organs, such as the lungs and heart, and large datasets of natural images. Our results show that conventional contrastive learning pre-training improves performance compared to supervised baseline approaches. Furthermore, our pre-trained models achieve comparable performance when fine-tuned with only half of the available labelled data. Our findings also show the advantages of pre-training on diverse organ data for improving performance in the downstream task.
翻訳日:2024-02-23 17:11:32 公開日:2024-02-21
# 疎線形回帰における不適切な学習のための計算統計的ギャップ

Computational-Statistical Gaps for Improper Learning in Sparse Linear Regression ( http://arxiv.org/abs/2402.14103v1 )

ライセンス: Link先を確認
Rares-Darius Buhai, Jingqiu Ding, Stefan Tiegel(参考訳) 偏線形回帰法における不適切な学習のための計算統計的ギャップについて検討した。 より具体的には、次元$d$の$k$スパース線型モデルから$n$のサンプルが与えられたとき、$d$、$k$および$n$の時間多項式において、$n$のサンプルの非自明な予測誤差を達成する回帰ベクトルに対して潜在的に密度の高い推定を求める。 情報理論上、これは$\Theta(k \log (d/k))$サンプルを使って実現できる。 しかし、文学においてその優位性にもかかわらず、モデルにさらなる制約を加えることなく$\Theta(d)$サンプルを使用して同じ保証を達成する多項式時間アルゴリズムは存在しない。 同様に、既存の硬度結果は適切な設定に制限され、見積もりもスパースでなければならないか、特定のアルゴリズムにのみ適用される。 このタスクの効率的なアルゴリズムには少なくとも(概して)$\Omega(k^2)$サンプルが必要であるという証拠を与える。 特に, 疎線形回帰のための不適切な学習アルゴリズムは, 少なくとも$\Omega(k^2)$のサンプルを必要とすると広く信じられているレジームにおいて, ウィッシュアート形式のスパースPCA問題を(負のスパイクで)解くのに利用できることを示した。 我々は, 少ないPCA問題に対して, 低次, 統計的クエリの下限を補う。 我々の硬さは、余変数が未知の共分散を持つ平均零ガウス分布から引き出される(関連する)ランダムな設計設定に適用できる。

We study computational-statistical gaps for improper learning in sparse linear regression. More specifically, given $n$ samples from a $k$-sparse linear model in dimension $d$, we ask what is the minimum sample complexity to efficiently (in time polynomial in $d$, $k$, and $n$) find a potentially dense estimate for the regression vector that achieves non-trivial prediction error on the $n$ samples. Information-theoretically this can be achieved using $\Theta(k \log (d/k))$ samples. Yet, despite its prominence in the literature, there is no polynomial-time algorithm known to achieve the same guarantees using less than $\Theta(d)$ samples without additional restrictions on the model. Similarly, existing hardness results are either restricted to the proper setting, in which the estimate must be sparse as well, or only apply to specific algorithms. We give evidence that efficient algorithms for this task require at least (roughly) $\Omega(k^2)$ samples. In particular, we show that an improper learning algorithm for sparse linear regression can be used to solve sparse PCA problems (with a negative spike) in their Wishart form, in regimes in which efficient algorithms are widely believed to require at least $\Omega(k^2)$ samples. We complement our reduction with low-degree and statistical query lower bounds for the sparse PCA problems from which we reduce. Our hardness results apply to the (correlated) random design setting in which the covariates are drawn i.i.d. from a mean-zero Gaussian distribution with unknown covariance.
翻訳日:2024-02-23 17:11:16 公開日:2024-02-21
# 神経生物学ネットワークにおける機能的コネクトームの学習動的表現

Learning dynamic representations of the functional connectome in neurobiological networks ( http://arxiv.org/abs/2402.14102v1 )

ライセンス: Link先を確認
Luciano Dyballa, Samuel Lang, Alexandra Haslund-Gourley, Eviatar Yemini, Steven W. Zucker(参考訳) ニューロン回路の静的シナプス接続は、その機能のダイナミクスと直接的に対照的である。 コミュニティの相互作用の変化と同様に、異なるニューロンは様々な組み合わせで活動し、異なる時間に行動に影響を及ぼす。 動物に生息する神経細胞間の動的親和性を学習し、異なる時期にどのニューロン同士のコミュニティを形成するかを明らかにするために、教師なしアプローチを導入する。 推論は2つの大きなステップで行われる。 第一に、脳全体のカルシウム活性からニューロンのトレース間の一対の非線形親和性は、非負のテンソル因子分解(ntf)によって構成される。 各因子は、どのニューロン群が時間的間隔で、どの動物と相互作用しているかを規定する。 最後に、NTFが生成する機能的モチーフに重み付けされたコミュニティ検出を可能にする生成モデルを適用し、動的機能的コネクトームを明らかにする。 時間(時間)は異なる実験変数(例えば化学刺激の応用)をコードするので、実験の別々の段階(例えば刺激の応用や自発的な行動)で活動する神経モチーフのアトラスを提供する。 本手法は神経細胞間の因果相互作用をロバストに予測し,行動を生成することができることを確認した。 コードはhttps://github.com/dyballa/dynamic-connectomesで入手できる。

The static synaptic connectivity of neuronal circuits stands in direct contrast to the dynamics of their function. As in changing community interactions, different neurons can participate actively in various combinations to effect behaviors at different times. We introduce an unsupervised approach to learn the dynamic affinities between neurons in live, behaving animals, and to reveal which communities form among neurons at different times. The inference occurs in two major steps. First, pairwise non-linear affinities between neuronal traces from brain-wide calcium activity are organized by non-negative tensor factorization (NTF). Each factor specifies which groups of neurons are most likely interacting for an inferred interval in time, and for which animals. Finally, a generative model that allows for weighted community detection is applied to the functional motifs produced by NTF to reveal a dynamic functional connectome. Since time codes the different experimental variables (e.g., application of chemical stimuli), this provides an atlas of neural motifs active during separate stages of an experiment (e.g., stimulus application or spontaneous behaviors). Results from our analysis are experimentally validated, confirming that our method is able to robustly predict causal interactions between neurons to generate behavior. Code is available at https://github.com/dyballa/dynamic-connectomes.
翻訳日:2024-02-23 17:10:44 公開日:2024-02-21
# Bangla AI: エスニックメディアのための大規模言語モデルを活用した機械翻訳フレームワーク

Bangla AI: A Framework for Machine Translation Utilizing Large Language Models for Ethnic Media ( http://arxiv.org/abs/2402.14179v1 )

ライセンス: Link先を確認
MD Ashraful Goni, Fahad Mostafa, Kerk F. Kee(参考訳) 民族メディアは、ホスト国のディアスポラのコミュニティを対象とし、これらのコミュニティがコンテンツとアクセス情報の両方を生産するための重要なプラットフォームとなっている。 ホスト国の言語を利用するのではなく、民族メディアは移民コミュニティの言語でニュースを提供する。 例えばアメリカ合衆国では、バングラの民族メディアは英語よりもバングラでニュースを流している。 この研究は、民族メディア産業における大規模言語モデル(LLM)と多言語機械翻訳(MMT)の今後の統合について考察する。 ニュース翻訳、検索、分類の様々な面において、MDTでLLMを使用することの変換可能性に焦点を当てている。 本稿は、民族メディアのニュース検索・翻訳プロセスにLLMとMTを統合するための理論的枠組みを概説する。 さらに、ニュース翻訳におけるLLMとMTの導入に伴う潜在的な倫理的課題を簡潔に解決する。

Ethnic media, which caters to diaspora communities in host nations, serves as a vital platform for these communities to both produce content and access information. Rather than utilizing the language of the host nation, ethnic media delivers news in the language of the immigrant community. For instance, in the USA, Bangla ethnic media presents news in Bangla rather than English. This research delves into the prospective integration of large language models (LLM) and multi-lingual machine translations (MMT) within the ethnic media industry. It centers on the transformative potential of using LLM in MMT in various facets of news translation, searching, and categorization. The paper outlines a theoretical framework elucidating the integration of LLM and MMT into the news searching and translation processes for ethnic media. Additionally, it briefly addresses the potential ethical challenges associated with the incorporation of LLM and MMT in news translation procedures.
翻訳日:2024-02-23 17:05:52 公開日:2024-02-21
# オンラインコミュニティにおける人間価値の調査

Investigating Human Values in Online Communities ( http://arxiv.org/abs/2402.14177v1 )

ライセンス: Link先を確認
Nadav Borenstein, Arnav Arora, Lucie-Aim\'ee Kaffee, Isabelle Augenstein(参考訳) 人的価値は社会科学における分析ツールとして重要な役割を担い、社会全体および個々のコミュニティにおける様々な次元の研究を可能にする。 本稿では、シュワルツの価値観フレームワークの計算的応用をredditに提案することにより、伝統的な調査に基づく人的価値研究の限界について述べる。 Redditコンテンツの自動値抽出ツールの信頼性を確保した後、Schwartzの値で10,000のサブレディットに600万の投稿を自動的に注釈付けします。 本分析は,様々なオンラインコミュニティで広く普及している価値観について,これまでに記録された知見と新たな知見の両方を提示する。 例えば、論争の的となっている話題について意見の異なるサブredditを調べると、肉食よりもベガンサブredditの方が普遍主義の価値観が高いことが分かる。 さらに、地理的に特異的なサブレディットの研究は、伝統的な価値観と保守的なアメリカ合衆国の州との相関を強調している。

Human values play a vital role as an analytical tool in social sciences, enabling the study of diverse dimensions within society as a whole and among individual communities. This paper addresses the limitations of traditional survey-based studies of human values by proposing a computational application of Schwartz's values framework to Reddit, a platform organized into distinct online communities. After ensuring the reliability of automated value extraction tools for Reddit content, we automatically annotate six million posts across 10,000 subreddits with Schwartz values. Our analysis unveils both previously recorded and novel insights into the values prevalent within various online communities. For instance, when examining subreddits with differing opinions on controversial topics, we discover higher universalism values in the Vegan subreddit compared to Carnivores. Additionally, our study of geographically specific subreddits highlights the correlation between traditional values and conservative U.S. states.
翻訳日:2024-02-23 17:05:16 公開日:2024-02-21
# ダイナミックゲームにおけるデータ駆動プライオリティのブレンディング

Blending Data-Driven Priors in Dynamic Games ( http://arxiv.org/abs/2402.14174v1 )

ライセンス: Link先を確認
Justin Lidard, Haimin Hu, Asher Hancock, Zixu Zhang, Albert Gim\'o Contreras, Vikash Modi, Jonathan DeCastro, Deepak Gopinath, Guy Rosman, Naomi Leonard, Mar\'ia Santos, Jaime Fern\'andez Fisac(参考訳) 自動運転車のようなインテリジェントなロボットが、人々の存在下でますます展開されるようになるにつれ、これらのシステムがモデルベースのゲーム理論プランナーとデータ駆動のポリシーを、安全で対話性のあるモーションプランニングのために活用すべき範囲は、まだ未解決の問題だ。 既存の動的ゲーム定式化は、全てのエージェントがタスク駆動であり、最適に振る舞うと仮定する。 しかし、実際には、人間はこれらのモデルによって規定される決定から逸脱しがちであり、その振る舞いはノイズレーショナルパラダイムの下でよりよく近似される。 本研究では,データ駆動参照ポリシーと最適化に基づくゲーム理論ポリシーを融合する原理的手法について検討する。 kullback-leibler (kl) 正規化を伴う非協力型ダイナミックゲームの一種である klgame を一般, 確率的, 多様参照ポリシーとして定式化する。 本手法は,各意思決定者に対して,タスク駆動行動とデータ駆動行動の変調を可能にする可変パラメータを組み込む。 我々は,KLGameのNash平衡戦略をリアルタイムに計算する効率的なアルゴリズムを提案する。 シミュレーションおよび実世界の自律運転シナリオを通じて、KLGameポリシーは基準ポリシーからのガイダンスをより効果的に取り入れ、非正規化ベースラインよりもノイズの多い人間の振る舞いを説明できることを示した。

As intelligent robots like autonomous vehicles become increasingly deployed in the presence of people, the extent to which these systems should leverage model-based game-theoretic planners versus data-driven policies for safe, interaction-aware motion planning remains an open question. Existing dynamic game formulations assume all agents are task-driven and behave optimally. However, in reality, humans tend to deviate from the decisions prescribed by these models, and their behavior is better approximated under a noisy-rational paradigm. In this work, we investigate a principled methodology to blend a data-driven reference policy with an optimization-based game-theoretic policy. We formulate KLGame, a type of non-cooperative dynamic game with Kullback-Leibler (KL) regularization with respect to a general, stochastic, and possibly multi-modal reference policy. Our method incorporates, for each decision maker, a tunable parameter that permits modulation between task-driven and data-driven behaviors. We propose an efficient algorithm for computing multimodal approximate feedback Nash equilibrium strategies of KLGame in real time. Through a series of simulated and real-world autonomous driving scenarios, we demonstrate that KLGame policies can more effectively incorporate guidance from the reference policy and account for noisily-rational human behaviors versus non-regularized baselines.
翻訳日:2024-02-23 17:04:50 公開日:2024-02-21
# オープンソースソフトウェア分野の研究: フィールドを再構築するためのソーシャルと実践のネットワークを拡大

Open Source Software Field Research: Spanning Social and Practice Networks for Re-Entering the Field ( http://arxiv.org/abs/2402.14172v1 )

ライセンス: Link先を確認
Sean P. Goggins, Kevin Lumbard, and Matt Germonprez(参考訳) 社会技術研究には、オープンソースソフトウェアを構築するためのインフラを含む大規模な社会技術基盤から生まれる社会的サブネットワークが含まれる。 本稿では,これらのサブネットワークを研究者にとって有利に扱う。 これは、研究者が関与するフィールド研究中に隣り合うソーシャルサブネットワークを最もよくつなぐ方法に焦点を当てた方法論的な合成を提供する。 具体的には、より広範な技術基盤内の社会サブシステムから別の社会への移動を支援するプラクティスとアーティファクトについて述べる。 サブネットワークにまたがる重要性を明らかにするために,社会工学研究者の発展における社会的資本と技術基盤の役割について論じる。 次に、コミットメント、コンテキストマッピング、ジャーゴン能力、価値の返却、橋渡しという、関与のあるフィールド調査中のソーシャルサブネットワークにまたがる5つのステップを特徴付ける。 次に、企業オープンソースソフトウェアプロジェクトの研究経験と、その経験がオープンソース科学ソフトウェア研究の加速に果たす役割について、社会的資本をブリッジするレンズを通して説明します。 本分析に基づき, 大規模社会工学研究において, 社会的資本と技術的に獲得した社会資本の関係が欠落しているが重要な方法論的側面である, 技術的文脈と議論を共有する, 隣接するソーシャルサブネットワークにおけるフィールドワークへの関与を推奨する。

Sociotechnical research increasingly includes the social sub-networks that emerge from large-scale sociotechnical infrastructure, including the infrastructure for building open source software. This paper addresses these numerous sub-networks as advantageous for researchers. It provides a methodological synthesis focusing on how researchers can best span adjacent social sub-networks during engaged field research. Specifically, we describe practices and artifacts that aid movement from one social subsystem within a more extensive technical infrastructure to another. To surface the importance of spanning sub-networks, we incorporate a discussion of social capital and the role of technical infrastructure in its development for sociotechnical researchers. We then characterize a five-step process for spanning social sub-networks during engaged field research: commitment, context mapping, jargon competence, returning value, and bridging. We then present our experience studying corporate open source software projects and the role of that experience in accelerating our work in open source scientific software research as described through the lens of bridging social capital. Based on our analysis, we offer recommendations for engaging in fieldwork in adjacent social sub-networks that share a technical context and discussion of how the relationship between social and technically acquired social capital is a missing but critical methodological dimension for research on large-scale sociotechnical research.
翻訳日:2024-02-23 17:04:22 公開日:2024-02-21
# 重み付きモノガミーとポリガミーの関係

Weighted monogamy and polygamy relations ( http://arxiv.org/abs/2402.14170v1 )

ライセンス: Link先を確認
Yue Cao, Naihuan Jing, Yiling Wang(参考訳) この研究は、多部量子系における量子相関の文脈における一夫一婦制と多妻制の関係を強化するための包括的なアプローチを提供する。 我々は最近確立された関係と比較して,多部構造系における一夫一婦制と多妻制の双方に最も厳密な境界を示す。 境界が与えられたとき(単元あるいは多元数)、あるパラメータ$s$でインデックスづけされた境界は常に基底関係から導かれる与えられた境界よりも強くなる。 この研究には詳細な例が含まれており、既存のすべての症例に比較して、より強い強度を示すことが示されている。

This research offers a comprehensive approach to strengthening both monogamous and polygamous relationships within the context of quantum correlations in multipartite quantum systems. We present the most stringent bounds for both monogamy and polygamy in multipartite systems compared to recently established relations. We show that whenever a bound is given (named it monogamy or polygamy), our bound indexed by some parameter $s$ will always be stronger than the given bound derived from the base relation. The study includes detailed examples, highlighting that our findings exhibit greater strength across all existing cases in comparison.
翻訳日:2024-02-23 17:03:57 公開日:2024-02-21
# 機械学習注意モデルを用いた時間バイアス補正

A Temporal Bias Correction using a Machine Learning Attention model ( http://arxiv.org/abs/2402.14169v1 )

ライセンス: Link先を確認
Omer Nivron, Damon J. Wischik(参考訳) 気候モデルは現実世界の観測に偏りがあり、通常、影響研究の前に校正する必要がある。 このような校正を可能にする統計手法の組をバイアス補正(bc)と呼ぶ。 しかし、現在のbc法は、連続する時間軸間の依存性を無視するため、時間バイアスの調整に苦労している。 結果として、熱波の持続時間や周波数などの長期的特性を持つ気候統計を正確に修正することはできず、そのような気候統計に関する信頼性の高い影響研究を作成するのが困難になる。 本稿では,時間的バイアスを補正する新しいBC手法を提案する。 これは可能である。 一 アルゴリズム的手続きではなく確率モデルとしてbcを再考すること、及び 二 最先端機械学習(ML)の確率的注意モデルを適用すること。 アブハ、ナイジェリア、東京における熱波持続時間統計のケーススタディにより、現在の気候モデルと代替のBC法と比較して顕著な結果が得られた。

Climate models are biased with respect to real world observations and usually need to be calibrated prior to impact studies. The suite of statistical methods that enable such calibrations is called bias correction (BC). However, current BC methods struggle to adjust for temporal biases, because they disregard the dependence between consecutive time-points. As a result, climate statistics with long-range temporal properties, such as heatwave duration and frequency, cannot be corrected accurately, making it more difficult to produce reliable impact studies on such climate statistics. In this paper, we offer a novel BC methodology to correct for temporal biases. This is made possible by i) re-thinking BC as a probability model rather than an algorithmic procedure, and ii) adapting state-of-the-art machine-learning (ML) probabilistic attention models to fit the BC task. With a case study of heatwave duration statistics in Abuja, Nigeria, and Tokyo, Japan, we show striking results compared to current climate model outputs and alternative BC methods.
翻訳日:2024-02-23 17:03:31 公開日:2024-02-21
# T-Stitch: 軌道スティッチ付き事前学習拡散モデルにおける高速化サンプリング

T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with Trajectory Stitching ( http://arxiv.org/abs/2402.14167v1 )

ライセンス: Link先を確認
Zizheng Pan, Bohan Zhuang, De-An Huang, Weili Nie, Zhiding Yu, Chaowei Xiao, Jianfei Cai, Anima Anandkumar(参考訳) 拡散確率モデル(dpms)からのサンプリングは、高品質な画像生成にしばしば高価であり、通常、大きなモデルを持つ多くのステップを必要とする。 本稿では,サンプリング効率を向上させるための簡易かつ効率的な手法であるサンプリング軌道ステッチングt-stitchを提案する。 T-Stitchは、サンプリング軌道全体に対して単に大きなDPMを使用する代わりに、最初のステップで小さなDPMを、より大きなDPMの安価なドロップイン交換として利用し、後段で大きなDPMに切り替える。 私たちの重要な洞察は、異なる拡散モデルが同じトレーニングデータ分散の下で同様のエンコーディングを学習し、より小さなモデルが初期の段階で優れたグローバル構造を生成することができるということです。 広範な実験により、t-stitchはトレーニングフリーであり、一般的に異なるアーキテクチャに適用でき、柔軟性と品質のトレードオフにより、既存のほとんどの高速サンプリング技術を補完する。 例えば、DiT-XLでは、早期の時間ステップの40%は、クラス条件のImageNet生成のパフォーマンス低下なしに、安全に10倍高速なDiT-Sに置き換えることができる。 さらに,本手法は,一般的なSDモデルの加速だけでなく,パブリックモデル動物園からのスタイリング型SDモデルの迅速なアライメント向上にも有効であることを示す。 コードはhttps://github.com/nvlabs/t-stitchでリリース

Sampling from diffusion probabilistic models (DPMs) is often expensive for high-quality image generation and typically requires many steps with a large model. In this paper, we introduce sampling Trajectory Stitching T-Stitch, a simple yet efficient technique to improve the sampling efficiency with little or no generation degradation. Instead of solely using a large DPM for the entire sampling trajectory, T-Stitch first leverages a smaller DPM in the initial steps as a cheap drop-in replacement of the larger DPM and switches to the larger DPM at a later stage. Our key insight is that different diffusion models learn similar encodings under the same training data distribution and smaller models are capable of generating good global structures in the early steps. Extensive experiments demonstrate that T-Stitch is training-free, generally applicable for different architectures, and complements most existing fast sampling techniques with flexible speed and quality trade-offs. On DiT-XL, for example, 40% of the early timesteps can be safely replaced with a 10x faster DiT-S without performance drop on class-conditional ImageNet generation. We further show that our method can also be used as a drop-in technique to not only accelerate the popular pretrained stable diffusion (SD) models but also improve the prompt alignment of stylized SD models from the public model zoo. Code is released at https://github.com/NVlabs/T-Stitch
翻訳日:2024-02-23 17:03:17 公開日:2024-02-21
# 医用画像解析のための大規模視覚言語モデルに関する実証的研究

On Large Visual Language Models for Medical Imaging Analysis: An Empirical Study ( http://arxiv.org/abs/2402.14162v1 )

ライセンス: Link先を確認
Minh-Hao Van, Prateek Verma, Xintao Wu(参考訳) 近年,大規模言語モデル (LLM) が自然言語処理において注目されている。 さらに、LLMを視覚と統合することで、ユーザはマルチモーダルデータで創発的能力を調べることができる。 LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。 結果として、バイオメディカルイメージングの分野で潜在的に使用できる大きなモデルの膨大な応用がある。 その方向では、病気を診断する大規模モデルの能力を示すための、関連する作業が欠如している。 本研究では,医用画像解析タスクにおけるVLMのゼロショットと少数ショットの堅牢性について検討する。 脳MRI, 細胞顕微鏡画像, 胸部X線などの生体画像解析におけるVLMの有用性を総合的に検証した。

Recently, large language models (LLMs) have taken the spotlight in natural language processing. Further, integrating LLMs with vision enables the users to explore emergent abilities with multimodal data. Visual language models (VLMs), such as LLaVA, Flamingo, or CLIP, have demonstrated impressive performance on various visio-linguistic tasks. Consequently, there are enormous applications of large models that could be potentially used in the biomedical imaging field. Along that direction, there is a lack of related work to show the ability of large models to diagnose the diseases. In this work, we study the zero-shot and few-shot robustness of VLMs on the medical imaging analysis tasks. Our comprehensive experiments demonstrate the effectiveness of VLMs in analyzing biomedical images such as brain MRIs, microscopic images of blood cells, and chest X-rays.
翻訳日:2024-02-23 17:02:53 公開日:2024-02-21
# Recursive Speculative Decoding: 置き換えのないサンプリングによるLCM推論の高速化

Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement ( http://arxiv.org/abs/2402.14160v1 )

ライセンス: Link先を確認
Wonseok Jeon, Mukul Gagrani, Raghavv Goel, Junyoung Park, Mingu Lee, Christopher Lott(参考訳) 投機的復号化(英: Speculative decoding)は、小言語モデルが目標LLMにより並列に検証されるドラフトトケンシーケンスを生成する大言語モデル(LLM)の推論高速化手法である。 近年の研究では, 単一系列の投機的復号化よりも優れた性能を達成し, ドラフト・トケン・ツリーの確立によってこの手法が進歩している。 しかし、これらは独立して木の各レベルでトークンを生成し、木全体の多様性を活用できない。 さらに、その経験的優位性は配列の固定長に対して示され、木に基づく手法では LLM により多くの計算資源を暗黙的に与えている。 既存の研究は、リソースバウンドデバイスの重要性にもかかわらず、固定目標の計算予算で実証的な研究を行っていない。 本稿では,新規なツリーベース手法である再帰的投機的復号法(rsd)を提案する。 rsdのドラフト作成の間、木は並列に置き換えられずにトークンを描画するgumbel-top-$k$のトリックか、早期に検出されそうにないドラフトシーケンスとllmの計算コストを減少させる確率的ビーム探索によって構築される。 Llama 2 と OPT モデルを用いて RSD を実験的に評価した結果,RSD は固定のドラフトシーケンス長や LLM の固定的な計算予算において,ベースライン法よりも優れていた。

Speculative decoding is an inference-acceleration method for large language models (LLMs) where a small language model generates a draft-token sequence which is further verified by the target LLM in parallel. Recent works have advanced this method by establishing a draft-token tree, achieving superior performance over a single-sequence speculative decoding. However, those works independently generate tokens at each level of the tree, not leveraging the tree's entire diversifiability. Besides, their empirical superiority has been shown for fixed length of sequences, implicitly granting more computational resource to LLM for the tree-based methods. None of the existing works has conducted empirical studies with fixed target computational budgets despite its importance to resource-bounded devices. We present Recursive Speculative Decoding (RSD), a novel tree-based method that samples draft tokens without replacement and maximizes the diversity of the tree. During RSD's drafting, the tree is built by either Gumbel-Top-$k$ trick that draws tokens without replacement in parallel or Stochastic Beam Search that samples sequences without replacement while early-truncating unlikely draft sequences and reducing the computational cost of LLM. We empirically evaluate RSD with Llama 2 and OPT models, showing that RSD outperforms the baseline methods, consistently for fixed draft sequence length and in most cases for fixed computational budgets at LLM.
翻訳日:2024-02-23 17:02:39 公開日:2024-02-21
# TOOLVERIFIER: 自己検証による新しいツールの一般化

TOOLVERIFIER: Generalization to New Tools via Self-Verification ( http://arxiv.org/abs/2402.14158v1 )

ライセンス: Link先を確認
Dheeraj Mekala, Jason Weston, Jack Lanchantin, Roberta Raileanu, Maria Lomeli, Jingbo Shang, Jane Dwivedi-Yu(参考訳) 言語モデルにツールを使用するように教えることは、一般的なアシスタントを構築するための重要なマイルストーンであるが、それでもオープン問題である。 微調整による特定のツールの使用の学習には大きな進歩があったが、言語モデルはまだ、ほんの数回のデモから新しいツールの堅牢な使用方法を学ぶのに苦労している。 本研究は,(1)ツール選択中のコントラスト質問を自己回答し,(2)パラメータ生成によって近接候補を識別する自己検証手法を提案する。 我々は、Llama-270Bを用いて、この目標のために合成的で高品質な自己生成データを構築する。 17のunseenツールで構成される toolbenchベンチマークによる4つのタスクに関する広範囲な実験では、候補ツールの区別が微妙なニュアンスである場合であっても、少数のベースラインに対して平均22%の改善が示されている。

Teaching language models to use tools is an important milestone towards building general assistants, but remains an open problem. While there has been significant progress on learning to use specific tools via fine-tuning, language models still struggle with learning how to robustly use new tools from only a few demonstrations. In this work we introduce a self-verification method which distinguishes between close candidates by self-asking contrastive questions during (1) tool selection; and (2) parameter generation. We construct synthetic, high-quality, self-generated data for this goal using Llama-2 70B, which we intend to release publicly. Extensive experiments on 4 tasks from the ToolBench benchmark, consisting of 17 unseen tools, demonstrate an average improvement of 22% over few-shot baselines, even in scenarios where the distinctions between candidate tools are finely nuanced.
翻訳日:2024-02-23 17:02:09 公開日:2024-02-21
# 変分量子仮想時間発展を用いたマクスウェル方程式の解法

Solving Maxwells Equations using Variational Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2402.14156v1 )

ライセンス: Link先を確認
Nam Nguyen, Richard Thompson(参考訳) Maxwells方程式は電磁場を理解するのに基本的だが、その解は高速な計算クラスターに対しても計算的に要求される。 量子コンピュータは、より大規模で複雑なシステムを時間と資源の両方でより効率的にシミュレートできるので、これらの方程式を解くための有望な代替手段を提供する。 本稿では,maxwells方程式を解くために,短期量子ハードウェア上で変分量子虚時発展(varqite)アルゴリズムを用いる可能性について検討する。 本研究の目的は、シミュレーションフィールドの精度とVarQITEアルゴリズムの実装に必要な量子回路の深さとのトレードオフを分析することである。 これらの方程式の解を高精度に効率的に近似できることを実証し、量子回路の深さを最適化することでその性能を向上できることを示した。 この結果から,量子デバイス上でのVarQITEは電磁場などのPDEを解く強力なツールとなる可能性が示唆された。

Maxwells equations are fundamental to our understanding of electromagnetic fields, but their solution can be computationally demanding, even for high-performance computing clusters. Quantum computers offer a promising alternative for solving these equations, as they can simulate larger and more complex systems more efficiently both in time and resources. In this paper we investigate the potential of using the variational quantum imaginary time evolution (VarQITE) algorithm on near-term quantum hardware to solve for the Maxwells equations. Our objective is to analyze the trade-off between the accuracy of the simulated fields and the depth of the quantum circuit required to implement the VarQITE algorithm. We demonstrate that VarQITE can efficiently approximate the solution of these equations with high accuracy, and show that its performance can be enhanced by optimizing the quantum circuit depth. Our findings suggest that VarQITE on near-term quantum devices could provide a powerful tool for solving PDEs in electromagnetics and other fields.
翻訳日:2024-02-23 17:01:52 公開日:2024-02-21
# 類似性に基づくドメイン順序付けは意図認識のための破滅的な忘れ方を減らすことができるか?

Can Similarity-Based Domain-Ordering Reduce Catastrophic Forgetting for Intent Recognition? ( http://arxiv.org/abs/2402.14155v1 )

ライセンス: Link先を確認
Amogh Mannekote, Xiaoyi Tian, Kristy Elizabeth Boyer, Bonnie J. Dorr(参考訳) タスク指向対話システムは、より多くの機能をサポートするためにデプロイされた後も、常に拡大するインテントやドメインを扱うことが期待されている。 この期待に応えるためには、意図認識などのタスクに対して連続学習(CL)設定で発生する破滅的な忘れ問題(CF)を軽減することが重要である。 既存の対話システムの研究はリプレイベースおよび正規化に基づく手法を研究しているが、ドメイン順序付けが意図認識モデルのCL性能に与える影響は未解明のままである。 ドメインの順序付けがうまく理解できれば、経験リプレイのような既存のテクニックと併用できる直交的なテクニックになる可能性がある。 本研究は,3つのドメイン順序付け戦略(最小経路,最大経路,ランダム)が生成意図認識モデルのCL性能に与える影響を比較することで,このギャップを埋める。 以上の結果より,220M T5-Baseモデルを用いたトレーニングでは,ミンサムパスが破滅的忘れを減少させる効果が認められた。 しかし、この利点は770mのt5大型モデルで減少する。 これらの結果は、特にリソース制約のあるシナリオにおいて、継続的に学習する意図認識モデルにおける破滅的な忘れを緩和するための補完的戦略としてのドメイン順序付けの可能性を強調している。

Task-oriented dialogue systems are expected to handle a constantly expanding set of intents and domains even after they have been deployed to support more and more functionalities. To live up to this expectation, it becomes critical to mitigate the catastrophic forgetting problem (CF) that occurs in continual learning (CL) settings for a task such as intent recognition. While existing dialogue systems research has explored replay-based and regularization-based methods to this end, the effect of domain ordering on the CL performance of intent recognition models remains unexplored. If understood well, domain ordering has the potential to be an orthogonal technique that can be leveraged alongside existing techniques such as experience replay. Our work fills this gap by comparing the impact of three domain-ordering strategies (min-sum path, max-sum path, random) on the CL performance of a generative intent recognition model. Our findings reveal that the min-sum path strategy outperforms the others in reducing catastrophic forgetting when training on the 220M T5-Base model. However, this advantage diminishes with the larger 770M T5-Large model. These results underscores the potential of domain ordering as a complementary strategy for mitigating catastrophic forgetting in continually learning intent recognition models, particularly in resource-constrained scenarios.
翻訳日:2024-02-23 17:01:36 公開日:2024-02-21
# MM-Soc:ソーシャルメディアプラットフォームにおけるマルチモーダル大言語モデルのベンチマーク

MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms ( http://arxiv.org/abs/2402.14154v1 )

ライセンス: Link先を確認
Yiqiao Jin, Minje Choi, Gaurav Verma, Jindong Wang, Srijan Kumar(参考訳) ソーシャルメディアプラットフォームは、テキスト、画像、ビデオを含むマルチモーダルな情報交換のためのハブであり、マシンがオンライン空間におけるインタラクションに関連する情報や感情を理解することは困難である。 MLLM(Multimodal Large Language Models)は、これらの課題に対処するための有望なソリューションとして登場したが、人間の感情や誤報のような複雑な内容の正確な解釈に苦慮している。 本稿では,マルチモーダルなソーシャルメディアコンテンツに対するMLLMの理解を評価するための総合ベンチマークであるMM-Socを紹介する。 MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、誤情報検出、ヘイトスピーチ検出、ソーシャルコンテキスト生成など、さまざまなタスクを対象とした、新しい大規模なYouTubeタグ付けデータセットを組み込んだ。 オープンソースMLLMの10種類のサイズバリエーションを網羅的に評価した結果,性能の相違が明らかとなり,モデルの社会的理解能力の向上の必要性が浮き彫りになった。 分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難であることがわかった。 しかし、MLLMは微調整後の性能向上を示し、改善の道筋を示唆している。

Social media platforms are hubs for multimodal information exchange, encompassing text, images, and videos, making it challenging for machines to comprehend the information or emotions associated with interactions in online spaces. Multimodal Large Language Models (MLLMs) have emerged as a promising solution to address these challenges, yet struggle with accurately interpreting human emotions and complex contents like misinformation. This paper introduces MM-Soc, a comprehensive benchmark designed to evaluate MLLMs' understanding of multimodal social media content. MM-Soc compiles prominent multimodal datasets and incorporates a novel large-scale YouTube tagging dataset, targeting a range of tasks from misinformation detection, hate speech detection, and social context generation. Through our exhaustive evaluation on ten size-variants of four open-source MLLMs, we have identified significant performance disparities, highlighting the need for advancements in models' social understanding capabilities. Our analysis reveals that, in a zero-shot setting, various types of MLLMs generally exhibit difficulties in handling social media tasks. However, MLLMs demonstrate performance improvements post fine-tuning, suggesting potential pathways for improvement.
翻訳日:2024-02-23 17:01:07 公開日:2024-02-21
# BIRCO: 複雑な目的を持つ情報検索タスクのベンチマーク

BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives ( http://arxiv.org/abs/2402.14151v1 )

ライセンス: Link先を確認
Xiaoyue Wang, Jianyou Wang, Weili Cao, Kaicheng Wang, Ramamohan Paturi, Leon Bergen(参考訳) 本稿では,複雑な目的を持った情報検索(IR)タスクのベンチマークを示す。 BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。 ベンチマークの複雑さとコンパクトさは、大規模言語モデル(LLM)に基づく情報検索システムの評価に適している。 本稿では,LLM性能に影響を及ぼす要因を探索し,既存の手法に適合する,あるいはより複雑な代替品に優れる単純なベースラインモデルを同定する。 複雑なユーザニーズに対応するためには、より強力なモデルと新しい検索プロトコルが必要であることを示唆する。

We present the Benchmark of Information Retrieval (IR) tasks with Complex Objectives (BIRCO). BIRCO evaluates the ability of IR systems to retrieve documents given multi-faceted user objectives. The benchmark's complexity and compact size make it suitable for evaluating large language model (LLM)-based information retrieval systems. We present a modular framework for investigating factors that may influence LLM performance on retrieval tasks, and identify a simple baseline model which matches or outperforms existing approaches and more complex alternatives. No approach achieves satisfactory performance on all benchmark tasks, suggesting that stronger models and new retrieval protocols are necessary to address complex user needs.
翻訳日:2024-02-23 17:00:46 公開日:2024-02-21
# ニューラルネットワークと摩擦:スライド,ホールド,学習

Neural Networks and Friction: Slide, Hold, Learn ( http://arxiv.org/abs/2402.14148v1 )

ライセンス: Link先を確認
Joaquin Garcia-Suarez(参考訳) 本研究では,RNN(Recurrent Neural Networks),特にGRU(Gated Recurrent Unit)アーキテクチャを利用するものは,合成データから速度と状態の摩擦則の複雑な力学を学習する能力を有することを示した。 ネットワークのトレーニングに使用されるデータは、従来の速度と状態の摩擦方程式を、状態進化の老化則と組み合わせることで生成される。 我々のアプローチの新たな側面は、初期条件、直接効果、および訓練中の状態変数の進化を明示的に説明する損失関数の定式化である。 実験結果から, rnnは, gruアーキテクチャを用いて, 速度ジャンプによる摩擦係数の変化を効果的に予測し, 摩擦過程の物理の理解とシミュレーションにおいて機械学習モデルの可能性を示した。

In this study, it is demonstrated that Recurrent Neural Networks (RNNs), specifically those utilizing Gated Recurrent Unit (GRU) architecture, possess the capability to learn the complex dynamics of rate-and-state friction laws from synthetic data. The data employed for training the network is generated through the application of traditional rate-and-state friction equations coupled with the aging law for state evolution. A novel aspect of our approach is the formulation of a loss function that explicitly accounts for initial conditions, the direct effect, and the evolution of state variables during training. It is found that the RNN, with its GRU architecture, effectively learns to predict changes in the friction coefficient resulting from velocity jumps, thereby showcasing the potential of machine learning models in understanding and simulating the physics of frictional processes.
翻訳日:2024-02-23 17:00:35 公開日:2024-02-21
# 線形変換器は文脈内学習器である

Linear Transformers are Versatile In-Context Learners ( http://arxiv.org/abs/2402.14180v1 )

ライセンス: Link先を確認
Max Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge(参考訳) 近年の研究では、トランスフォーマー、特に線形注意モデルが、前進推論ステップ中にコンテキスト内データに対して、暗黙的に勾配descentライクなアルゴリズムを実行することが示されている。 しかし、より複雑な問題を扱う能力は未調査のままである。 本稿では,任意の線形変圧器が暗黙の線形モデルを保持し,事前条件付き勾配降下の変種として解釈できることを示す。 また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。 注目すべきは、線形変換器が複雑な高効率な最適化アルゴリズムを発見し、性能において多くの妥当なベースラインを超越または整合することを示すことである。 このアルゴリズムをリバースエンジニアリングし,ノイズレベルに基づく運動量と適応的リスケーリングを組み込んだ新しい手法であることを示す。 その結果,線形変圧器でさえ高度な最適化戦略を発見する驚くべき能力を持っていることがわかった。

Recent research has demonstrated that transformers, particularly linear attention models, implicitly execute gradient-descent-like algorithms on data provided in-context during their forward inference step. However, their capability in handling more complex problems remains unexplored. In this paper, we prove that any linear transformer maintains an implicit linear model and can be interpreted as performing a variant of preconditioned gradient descent. We also investigate the use of linear transformers in a challenging scenario where the training data is corrupted with different levels of noise. Remarkably, we demonstrate that for this problem linear transformers discover an intricate and highly effective optimization algorithm, surpassing or matching in performance many reasonable baselines. We reverse-engineer this algorithm and show that it is a novel approach incorporating momentum and adaptive rescaling based on noise levels. Our findings show that even linear transformers possess the surprising ability to discover sophisticated optimization strategies.
翻訳日:2024-02-23 16:50:55 公開日:2024-02-21
# Video ReCap: 時間長ビデオの再帰的キャプション

Video ReCap: Recursive Captioning of Hour-Long Videos ( http://arxiv.org/abs/2402.13250v2 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius(参考訳) ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例えば、オブジェクト、シーン、アトミックアクション)を記述するテキストを出力するように設計されている。 しかし、ほとんどの現実世界のビデオは数分か数時間続き、時間的な粒度の異なる複雑な階層構造を持つ。 本稿では,ビデオキャプションを劇的に異なる長さ(1秒から2時間)で処理し,複数の階層レベルで映像キャプションを出力する再帰的ビデオキャプションモデルであるVideo ReCapを提案する。 再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間のシナジーを利用して、1時間分のビデオを効率的に処理できる。 ビデオの階層構造を学習するためのカリキュラム学習トレーニングスキームを,ビデオのアトミックな動作を記述したクリップレベルのキャプションから学び,セグメントレベルの記述に集中し,時間単位のビデオの要約を生成する。 さらに,Ego4Dを8,267個の長範囲ビデオ要約で拡張することにより,Ego4D-HCapデータセットを導入する。 再帰的モデルでは,階層レベルの異なるキャプションを柔軟に生成できると同時に,ビデオQA on EgoSchemaなどの複雑なビデオ理解タスクにも有効である。 データ、コード、モデルは、https://sites.google.com/view/vidrecapで利用可能である。

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
翻訳日:2024-02-23 11:55:18 公開日:2024-02-21
# 近接量子限界雑音特性を持つ4波混合を用いた4-8GHzの動特性インダクタンスパラメトリック増幅器

A 4-8 GHz Kinetic Inductance Travelling-Wave Parametric Amplifier Using Four-Wave Mixing with Near Quantum-Limit Noise Performance ( http://arxiv.org/abs/2402.11751v2 )

ライセンス: Link先を確認
Farzad Faramarzi, Ryan Stephenson, Sasha Sypkens, Byeong H. Eom, Henry LeDuc, and Peter Day(参考訳) 動インダクタンス進行波パラメトリック増幅器(KI-TWPA)は、量子制限感度に近づき、比較的高いダイナミックレンジを有する。 このため、低温検出器や超伝導量子ビットに適した読み出し装置であり、量子センシングにも様々な応用がある。 本研究では,NbTiNマイクロストリップ伝送線路における4波長混合に基づくKI-TWPAの設計,製造,性能について述べる。 別個の高周波数帯域で発生する画像トーンから汚染されることなく、4〜8〜GHzの信号帯域を増幅する。 4~8ghz帯は、マイクロ波速度インダクタンス検出器(mkids)やジョセフソンジャンクションベースの量子ビットなどの極低温検出器を読み出すためによく用いられる。 1-dBゲイン圧縮点が-58dBmの4波長混合による最大ゲイン20dB以上を,そのバンドよりも15dBのゲイン15dBで測定した。 帯域幅とピークゲインは、ポンプ音の周波数と電力を調整することで調整可能である。 また、Y-factor法を用いて、4.5 - 8GHzの1.5$光子の増幅器付加雑音を測定した。

Kinetic inductance traveling-wave parametric amplifiers (KI-TWPA) have a wide instantaneous bandwidth with near quantum-limited sensitivity and a relatively high dynamic range. Because of this, they are suitable readout devices for cryogenic detectors and superconducting qubits and have a variety of applications in quantum sensing. This work discusses the design, fabrication, and performance of a KI-TWPA based on four-wave mixing in a NbTiN microstrip transmission line. This device amplifies a signal band from 4 to 8~GHz without contamination from image tones, which are produced in a separate higher frequency band. The 4 - 8~GHz band is commonly used to read out cryogenic detectors, such as microwave kinetic inductance detectors (MKIDs) and Josephson junction-based qubits. We report a measured maximum gain of over 20 dB using four-wave mixing with a 1-dB gain compression point of -58 dBm at 15 dB of gain over that band. The bandwidth and peak gain are tunable by adjusting the pump-tone frequency and power. Using a Y-factor method, we measure an amplifier-added noise of $ 0.5 \leq N_{added} \leq 1.5$ photons from 4.5 - 8 GHz.
翻訳日:2024-02-23 11:52:04 公開日:2024-02-21
# 機能選択ライブラリ(matlabツールボックス)

Feature Selection Library (MATLAB Toolbox) ( http://arxiv.org/abs/1607.01327v7 )

ライセンス: Link先を確認
Giorgio Roffo(参考訳) 機能選択ライブラリ(fslib)は、matlabユーザのための機械学習とデータマイニングにおける注目すべき進歩を示し、特定のタスクに必須の機能を特定することによって、モデル効率と有効性を高めるための機能選択(fs)の重要な役割を強調している。 FSLibのコントリビューションは包括的であり、さまざまなFS課題に対処している。 フィルタ、組込み、ラッパーメソッドを含む幅広いFSアルゴリズムを提供し、特定の問題要求に合わせて最適な特徴選択を可能にする。 フィルタ手法は固有の特徴特性を優先し,組込み手法はトレーニングプロセス内での選択を統合し,ラッパー手法はモデル性能に基づいて特徴を評価する。 FSLibは、関連する特徴部分集合の選択を容易にし、データ次元を減らし、計算要求を減らし、モデル一般化性を改善することで、次元の呪いにも対処する。 さらに、過剰な機能を排除することによって、FSLibは学習プロセスを合理化し、モデルのトレーニング効率とスケーラビリティを向上させる。 このターゲット選択プロセスは、モデル開発を加速するだけでなく、重要な情報に集中することによって、モデルの精度、精度、リコールを促進する。 さらにFSLibは、データ解釈可能性を強化し、重要な特徴の識別を通じてデータ構造に関する洞察を提供し、パターンの発見と理解を支援する。 基本的にFSLibは、単純な機能選択を超えて、マシンラーニングとデータマイニングワークフロー全体を拡張した包括的なフレームワークを提供する。 アルゴリズムの広範な選択、次元的課題の緩和、学習の迅速化、モデルメトリクスの改善、データ洞察の促進によって、FSLibは、機械学習の研究と実践の進化における重要なリソースとして現れます。

The Feature Selection Library (FSLib) signifies a notable progression in machine learning and data mining for MATLAB users, emphasizing the critical role of Feature Selection (FS) in enhancing model efficiency and effectiveness by pinpointing essential features for specific tasks. FSLib's contributions are comprehensive, tackling various FS challenges. It offers a wide array of FS algorithms, including filter, embedded, and wrapper methods, allowing for optimal feature selection tailored to specific problem requirements. Filter methods prioritize intrinsic feature properties, embedded methods integrate selection within the training process, and wrapper methods evaluate features based on model performance, catering to diverse modeling approaches. FSLib also addresses the curse of dimensionality by facilitating the selection of relevant feature subsets, thereby reducing data dimensionality, lessening computational demands, and potentially improving model generalizability. Furthermore, by eliminating superfluous features, FSLib streamlines the learning process, enhancing model training efficiency and scalability. This targeted selection process not only accelerates model development but also bolsters model accuracy, precision, and recall by concentrating on crucial information. Additionally, FSLib enhances data interpretability, offering insights into data structure through the identification of significant features, thereby aiding in pattern discovery and understanding. In essence, FSLib extends beyond simple feature selection, providing a comprehensive framework that augments the entire machine learning and data mining workflow. By presenting an extensive selection of algorithms, mitigating dimensional challenges, expediting learning, improving model metrics, and fostering data insight, FSLib emerges as an instrumental resource in the evolution of machine learning research and practice.
翻訳日:2024-02-22 23:51:09 公開日:2024-02-21
# 2ビット交絡状態の単一コピーを用いた複数観測者によるリモート状態作成

Remote state preparation by multiple observers using a single copy of a two-qubit entangled state ( http://arxiv.org/abs/2109.03682v3 )

ライセンス: Link先を確認
Shounak Datta, Shiladitya Mal, Arun K. Pati, A. S. Majumdar(参考訳) 連続的なネットワークシナリオの文脈において、キュービットのリモート状態準備(RSP)のシナリオを考える。 絡み合った状態の1つのコピーは、一方のアリスと他方のボブの間で共有され、特定の状態を作成するために連続して非シャープな単粒子測定を行う。 与えられたシナリオにおいて、各Bob間のランダム性を共有しない場合、まず、Bobs による遠隔状態の準備のための古典的忠実性の境界を決定する。 次に,aliceの研究室では,共有量子相関の存在下で古典境界を超える忠実度で,遠隔量子ビット状態の連続的かつ独立的に作成できるボブ数を最大6名持つことができることを示した。 上界は、最初にアリスと最初のボブの間で一重項状態が共有され、各ボブがブロッホ球面の赤道円から選択された状態を準備したときに達成される。 次に,非平衡状態アンサンブルのための新しいrspプロトコルを提案する。 ボブの最大数は、赤道円からブロッホ球面の極へと遠方状態の選択が移されるか、初期状態が最大に絡み合った純状態と混合状態へと移るときに6つから減少する。

We consider a scenario of remote state preparation (RSP) of qubits in the context of sequential network scenario. A single copy of an entangled state is shared between Alice on one side, and several Bobs on the other, who sequentially perform unsharp single-particle measurements in order to prepare a specific state. In the given scenario without any shared randomness between the various Bobs, we first determine the classical bound of fidelity for the preparation of remote states by the Bobs. We then show that there can be at most 6 number of Bobs who can sequentially and independently prepare the remote qubit state in Alice's lab with fidelity exceeding the classical bound in the presence of shared quantum correlations. The upper bound is achieved when the singlet state is initially shared between Alice and the first Bob and every Bob prepares a state chosen from the equatorial circle of the Bloch sphere. Then we introduce a new RSP protocol for non-equatorial ensemble of states. The maximum number of Bobs starts to decrease from six when either the choice of remote states is shifted from the equatorial circle towards the poles of the Bloch sphere, or when the initial state shifts towards non-maximally entangled pure and mixed states.
翻訳日:2024-02-22 22:07:38 公開日:2024-02-21
# 制約に基づく微粒化手法による流体運動推定の枠組み

A Framework for Fluid Motion Estimation using a Constraint-Based Refinement Approach ( http://arxiv.org/abs/2011.12267v4 )

ライセンス: Link先を確認
Hirak Doshi, N. Uday Kiran(参考訳) 物理に基づく光学フローモデルは、デジタル画像から生じる流体運動の変形を捉えることに成功している。 しかし、いくつかの物理モデルを分析する一般的な理論的枠組みが欠落している。 そこで本研究では,制約に基づくリファインメント手法を用いて流体運動推定のための一般的な枠組みを定式化する。 制約の特定の選択に対して, 古典連続性方程式に基づく流体流の手法をよく近似することを示した。 この近接性は、新しい方法で拡張ラグランジアン法によって理論的に正当化される。 Uzawaイテレートの収束は、修正された有界制約アルゴリズムを用いて示される。 数学的正当性はヒルベルト空間の設定で研究される。 さらに、この系を対角化するコーシー・リーマン作用素との驚くべき関係を観察し、分散と流れのカールを含む拡散現象を導いた。 いくつかの数値実験を行い、結果は異なるデータセットで示される。 さらに, フローの巻き込みを伴う流れ駆動型微細化プロセスが, 画像データに付加的な仮定を加えることなく, 古典物理学に基づく光フロー法よりも優れていることを示す。

Physics-based optical flow models have been successful in capturing the deformities in fluid motion arising from digital imagery. However, a common theoretical framework analyzing several physics-based models is missing. In this regard, we formulate a general framework for fluid motion estimation using a constraint-based refinement approach. We demonstrate that for a particular choice of constraint, our results closely approximate the classical continuity equation-based method for fluid flow. This closeness is theoretically justified by augmented Lagrangian method in a novel way. The convergence of Uzawa iterates is shown using a modified bounded constraint algorithm. The mathematical wellposedness is studied in a Hilbert space setting. Further, we observe a surprising connection to the Cauchy-Riemann operator that diagonalizes the system leading to a diffusive phenomenon involving the divergence and the curl of the flow. Several numerical experiments are performed and the results are shown on different datasets. Additionally, we demonstrate that a flow-driven refinement process involving the curl of the flow outperforms the classical physics-based optical flow method without any additional assumptions on the image data.
翻訳日:2024-02-22 22:05:28 公開日:2024-02-21
# 開QED格子における強相互作用の効果を捉えるための修正準古典解析

A modified quasi-classical analysis to capture the effects of strong interaction in open QED lattices ( http://arxiv.org/abs/2010.14935v2 )

ライセンス: Link先を確認
Tarush Tiwari, Kuldeep K Shrivastava, Dibyendu Roy, Rajeev Singh(参考訳) 2つの異なる1次元オープンQED格子による光伝搬における光非線形性の役割について検討する。 より高精度なハイゼンベルク-ランゲヴィン方程式法を用いて、有効光子-光子相互作用と、量子ビットの非線形性によって媒介される関連する光子遮断により、これらの格子の強度が増大する光透過の減少を示す。 直接結合量子ビットとは対照的に、光子による量子ビットの飽和により比較的高い強度で側結合量子ビットの光伝達が復活する。 バルク散逸がなければ、標準準古典解析では、光子-光子相互作用による光透過の低下を捉えられなかった。 次に, 準古典的解析法を改良し, より優れた結果を与えるシステム手法を考案する。

We investigate the role of optical nonlinearity in light propagation through two different one-dimensional open QED lattices, namely a chain of qubits with direct coupling between the nearest neighbors and a chain of connected resonators to each of which a qubit is side-coupled. Using the more accurate truncated Heisenberg-Langevin equations method we show a reduction of light transmission with increasing intensity in these lattices due to effective photon-photon interactions and related photon blockade mediated by nonlinearity in qubits. In contrast to the direct-coupled qubits, we find a revival in the light transmission in the side-coupled qubits at relatively higher intensities due to saturation of qubits by photons. We find that in absence of bulk dissipation the standard quasi-classical analysis fails to capture the reduction in light transmission due to effective photon-photon interaction. We then devise a systemic method to modify the quasi-classical analysis to give much better results.
翻訳日:2024-02-22 22:05:13 公開日:2024-02-21
# データ拡張による物体検出のための不整合知識蒸留法の検討

Exploring Inconsistent Knowledge Distillation for Object Detection with Data Augmentation ( http://arxiv.org/abs/2209.09841v3 )

ライセンス: Link先を確認
Jiawei Liang, Siyuan Liang, Aishan Liu, Ke Ma, Jingzhi Li, Xiaochun Cao(参考訳) 物体検出のための知識蒸留(kd)は、教師モデルから知識を移し、コンパクトな検出器を訓練することを目的としている。 教師モデルは、人間とは異なる方法でデータを知覚するため、既存のKD法では、人間の知覚と一致しない知識を無視しながら、人間の専門家によって注釈付けされたラベルと整合した知識のみを蒸留する。 本稿では,教師モデルの直観に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(ikd)を提案する。 まず,教師モデルの周波数特徴と非ロバスト特徴の直観的認識について考察する。 細かな特徴を生かしたり、追加の正規化を導入する以前の作品とは異なり、データ拡張を用いて多様な入力を提供することで一貫性のない知識を抽出する。 具体的には,教師モデルの異なる周波数成分を捉える能力を伝達するサンプル特異的データ拡張法を提案し,教師モデルの非ロバスト特徴に対する知覚を抽出するための逆特徴拡張法を提案する。 大規模実験により, 1段, 2段, アンカーフリーの物体検出器(多くは1.0 mAP)において, 最先端KDベースラインを上回る性能を示した。 我々のコードは \url{https://github.com/JWLiang007/IKD.git} で利用可能になります。

Knowledge Distillation (KD) for object detection aims to train a compact detector by transferring knowledge from a teacher model. Since the teacher model perceives data in a way different from humans, existing KD methods only distill knowledge that is consistent with labels annotated by human expert while neglecting knowledge that is not consistent with human perception, which results in insufficient distillation and sub-optimal performance. In this paper, we propose inconsistent knowledge distillation (IKD), which aims to distill knowledge inherent in the teacher model's counter-intuitive perceptions. We start by considering the teacher model's counter-intuitive perceptions of frequency and non-robust features. Unlike previous works that exploit fine-grained features or introduce additional regularizations, we extract inconsistent knowledge by providing diverse input using data augmentation. Specifically, we propose a sample-specific data augmentation to transfer the teacher model's ability in capturing distinct frequency components and suggest an adversarial feature augmentation to extract the teacher model's perceptions of non-robust features in the data. Extensive experiments demonstrate the effectiveness of our method which outperforms state-of-the-art KD baselines on one-stage, two-stage and anchor-free object detectors (at most +1.0 mAP). Our codes will be made available at \url{https://github.com/JWLiang007/IKD.git}.
翻訳日:2024-02-22 22:00:51 公開日:2024-02-21
# ブラジル多目的炉中性子イメージングセンターの確率モデリング

Stochastic modeling of a neutron imaging center at the Brazilian Multipurpose Reactor ( http://arxiv.org/abs/2208.07172v4 )

ライセンス: Link先を確認
Luiz P. de Oliveira, Alexandre P.S. Souza, Frederico A. Genezini and Adimir dos Santos(参考訳) 中性子イメージングは、考古学的または工業的な材料構造のような幅広い種類のサンプルを分析する非破壊的な技術である。 近年の技術の進歩は中性子イメージング技術に大きな影響を与えており、これは2Dフィルムを用いた単純なラジオグラフィーから3Dデジタルプロセッシングによる最新のトモグラフィーシステムへの進化を意味している。 5MWの研究原子炉IEA-R1はブラジルのペスキサス・エネルギス原子力研究所(IPEN)にあり、中性子イメージング装置を持ち、サンプル位置は1.0 \times 10^{6}$ $n/cm^{2}s$である。 IEA-R1は60歳以上で、画像を含むブラジルの中性子科学の未来は、ブラジル多目的炉(RMB、ポルトガル語の頭字語)と呼ばれる新しい施設に拡大される。 新しい原子炉は中性子イメージング施設(viz., neinei)を含む中性子国立研究所の一連の機器を収容する。 近年の著作に触発されて,確率的モンテカルロシミュレーションによるニューネーニ楽器のモデル化を行った。 中性子イメージング技術パラメータ(L/D$比)と中性子フラックスとの感度について検討し, ニュートラ (PSI) , アンタレス (FRM II) , BT2 (NIST) および INGO (OPAL) の観測値と比較した。 結果は有望であり、今後の改善への道筋を提供する。

Neutron imaging is a non-destructive technique for analyzing a wide class of samples, such as archaeological or industrial material structures. In recent decades, technological advances have had a great impact on the neutron imaging technique, which has meant an evolution from simple radiographs using films (2D) to modern tomography systems with digital processing (3D). The 5 MW research nuclear reactor IEA-R1, which is located at the Instituto de Pesquisas Energ\'eticas e Nucleares (IPEN) in Brazil, possesses a neutron imaging instrument with $1.0 \times 10^{6}$ $n/cm^{2}s$ in the sample position. IEA-R1 is over 60 years old and the future of neutron science in Brazil, including imaging, will be expanded to a new facility called the Brazilian Multipurpose Reactor (RMB, Portuguese acronym), which will be built soon. The new reactor will house a suite of instruments at the Neutron National Laboratory, including the neutron imaging facility, viz., Neinei. Inspired by recent author's works, we model the Neinei instrument through stochastic Monte Carlo simulations. We investigate the sensitivity of the neutron imaging technique parameter ($L/D$ ratio) with the neutron flux, and the results are compared to data from the Neutra (PSI), Antares (FRM II), BT2 (NIST) and DINGO (OPAL) instruments. The results are promising and provide avenues for future improvements.
翻訳日:2024-02-22 22:00:06 公開日:2024-02-21
# RIS-ADMM:干渉除去を用いたRISおよびADMMに基づくパッシブ・スパースセンシング法

RIS-ADMM: A RIS and ADMM-Based Passive and Sparse Sensing Method With Interference Removal ( http://arxiv.org/abs/2206.06172v2 )

ライセンス: Link先を確認
Peng Chen, Zhimin Chen, Pu Miao, Yun Chen(参考訳) Reconfigurable Intelligent Surfaces (RIS) は将来のレーダーおよび無線通信領域において有望な技術として出現する。 この手紙は、無線通信信号と無線アクセスポイント(AP)からの干渉中のRISを利用した受動センシング問題に対処する。 本稿では,原子ノルム最小化(anm)アプローチを導入し,空間領域目標のスパーシティを活用し,到着方向(doa)を推定する。 しかし、ANM問題に対する従来の半定値プログラミング(SDP)ベースのソリューションは複雑であり、効率的な実現方法がない。 そこで本研究では,乗算器 (ADMM) に基づく反復手法であるRIS-ADMM法を提案する。 この方法は閉形式表現を生じさせ、干渉信号を効果的に抑制する。 シミュレーションの結果, RIS-ADMM法は計算複雑性を低く保ちながら, 従来のDOA推定精度を超えることを確認した。 提案手法のコードは,オンライン \url{https://github.com/chenpengseu/RIS-ADMM.git} で公開されている。

Reconfigurable Intelligent Surfaces (RIS) emerge as promising technologies in future radar and wireless communication domains. This letter addresses the passive sensing issue utilizing wireless communication signals and RIS amidst interference from wireless access points (APs). We introduce an atomic norm minimization (ANM) approach to leverage spatial domain target sparsity and estimate the direction of arrival (DOA). However, the conventional semidefinite programming (SDP)-based solutions for the ANM problem are complex and lack efficient realization. Consequently, we propose a RIS-ADMM method, an innovative alternating direction method of multipliers (ADMM)-based iterative approach. This method yields closed-form expressions and effectively suppresses interference signals. Simulation outcomes affirm that our RIS-ADMM method surpasses existing techniques in DOA estimation accuracy while maintaining low computational complexity. The code for the proposed method is available online \url{https://github.com/chenpengseu/RIS-ADMM.git}.
翻訳日:2024-02-22 21:59:33 公開日:2024-02-21
# オフライン強化学習のための軽度保守的Qラーニング

Mildly Conservative Q-Learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.04745v3 )

ライセンス: Link先を確認
Jiafei Lyu, Xiaoteng Ma, Xiu Li, Zongqing Lu(参考訳) オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。 学習した政策と行動方針の間の分配シフトは、価値関数が保守的であり続ける必要があるため、分散(ood)アクションが過大評価されない。 しかし、既存のアプローチでは、目に見えない行動のペナルティ化や行動方針の規則化は悲観的すぎるため、値関数の一般化が抑制され、性能改善の妨げとなる。 本稿では, 一般化を損なうことなく, オフライン学習に十分な保守性について検討する。 我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。 理論的には、MCQは少なくとも行動方針と同様に振舞う政策を誘導し、OOD行動に対して誤った過大評価が起こらないことを示す。 D4RLベンチマークの実験結果から, MCQは従来よりも優れた性能を示した。 さらに、MCQはオフラインからオンラインへの移行において優れた一般化能力を示し、ベースラインを著しく上回る。 私たちのコードはhttps://github.com/dmksjfl/mcqで公開しています。

Offline reinforcement learning (RL) defines the task of learning from a static logged dataset without continually interacting with the environment. The distribution shift between the learned policy and the behavior policy makes it necessary for the value function to stay conservative such that out-of-distribution (OOD) actions will not be severely overestimated. However, existing approaches, penalizing the unseen actions or regularizing with the behavior policy, are too pessimistic, which suppresses the generalization of the value function and hinders the performance improvement. This paper explores mild but enough conservatism for offline learning while not harming generalization. We propose Mildly Conservative Q-learning (MCQ), where OOD actions are actively trained by assigning them proper pseudo Q values. We theoretically show that MCQ induces a policy that behaves at least as well as the behavior policy and no erroneous overestimation will occur for OOD actions. Experimental results on the D4RL benchmarks demonstrate that MCQ achieves remarkable performance compared with prior work. Furthermore, MCQ shows superior generalization ability when transferring from offline to online, and significantly outperforms baselines. Our code is publicly available at https://github.com/dmksjfl/MCQ.
翻訳日:2024-02-22 21:59:18 公開日:2024-02-21
# 量子検証と誤り検出の統一:最適化の理論とツール

Unifying Quantum Verification and Error-Detection: Theory and Tools for Optimisations ( http://arxiv.org/abs/2206.00631v3 )

ライセンス: Link先を確認
Theodoros Kapourniotis, Elham Kashefi, Dominik Leichtle, Luka Music, Harold Ollivier(参考訳) クラウドベースの量子コンピューティングの出現により、クライアントによって量子サービスプロバイダに委譲された計算が忠実に実行されるという強力な保証を提供することが不可欠になった。 セキュア - 盲目で検証可能な - Delegated Quantum Computing (SDQC) がこの課題に対処するための重要なアプローチの1つとして登場したが、現在のプロトコルには以下の3つの要素の少なくとも1つが欠けている。 この問題に対処するため,本稿では,クライアントがサーバに要求する計算と,サーバの悪意のある動作を検出するように設計されたテストという,SDQCプロトコルの基本構造について述べる。 この抽象化を用いることで、構成可能な抽象暗号フレームワークにおいて、一般的なSDQCプロトコルのセキュリティとノイズロバスト性を暗示する、これらのコンポーネントに対する十分な条件のセットが得られた。 これは、これらのセキュリティ特性とテスト計算のエラー検出能力の対応を確立することで実現される。 テストの種類の変更と、クライアントの計算とどのように混合するかによって、セキュリティとノイズロバスト性が異なる新しいsdqcプロトコルが自動的に生成される。 このアプローチは、テスト計算の十分な条件がプロトコルのセキュリティを証明するために必要なステップを単純化し、特定の状況に対するテストラウンドの設計と最適化に集中できるように、望まれるモジュラリティを提供します。 本稿では,境界誤差量子多項式時間計算のための改良されたsdqcプロトコルの探索を体系化する。 結果として得られるプロトコルは、検証なしで計算を盲目的に委譲するために必要なものよりもサーバー側で多くのハードウェアを必要としない。

With the advent of cloud-based quantum computing, it has become vital to provide strong guarantees that computations delegated by clients to quantum service providers have been executed faithfully. Secure - blind and verifiable - Delegated Quantum Computing (SDQC) has emerged as one of the key approaches to address this challenge, yet current protocols lack at least one of the following three ingredients: composability, noise-robustness and modularity. To tackle this question, our paper lays out the fundamental structure of SDQC protocols, namely mixing two components: the computation which the client would like the server to perform and tests that are designed to detect a server's malicious behaviour. Using this abstraction, our main technical result is a set of sufficient conditions on these components which imply the security and noise-robustness of generic SDQC protocols in the composable Abstract Cryptography framework. This is done by establishing a correspondence between these security properties and the error-detection capabilities of the test computations. Changing the types of tests and how they are mixed with the client's computation automatically yields new SDQC protocols with different security and noise-robustness capabilities. This approach thereby provides the desired modularity as our sufficient conditions on test computations simplify the steps required to prove the security of the protocols and allows to focus on the design and optimisation of test rounds to specific situations. We showcase this by systematising the search for improved SDQC protocols for Bounded-error Quantum Polynomial-time computations. The resulting protocols do not require more hardware on the server's side than what is necessary to blindly delegate the computation without verification, and they outperform all previously known results.
翻訳日:2024-02-22 21:59:00 公開日:2024-02-21
# 地形学的マルコフ連鎖モンテカルロ

Stereographic Markov Chain Monte Carlo ( http://arxiv.org/abs/2205.12112v2 )

ライセンス: Link先を確認
Jun Yang, Krzysztof {\L}atuszy\'nski, Gareth O. Roberts(参考訳) 高次元分布、特に重い尾を持つものは、無界状態空間、勾配情報の減少、局所的な動きの組み合わせによって、幾何学的エルゴディディティの欠如が実証的に観察される「粘性」と理論的な混合特性の低下など、既成のMCMCサンプルにとって非常に難しい。 本稿では,ユークリッド空間における元の高次元問題を球面にマッピングし,これらの悪名高い混合問題を緩和する新しいMCMCサンプリング装置を提案する。 特に, ランダムウォークのメトロポリス型アルゴリズムと, 高次元の高速収束を経験的に示し, 多数の光と重尾の分布に対して一様にエルゴード性を持つバウンシー粒子サンプリング器のバージョンを開発した。 最善のシナリオでは、提案するサンプラーは、より高次元の収束がより速くなるように ``blessings of dimensionality''' を楽しめる。

High-dimensional distributions, especially those with heavy tails, are notoriously difficult for off-the-shelf MCMC samplers: the combination of unbounded state spaces, diminishing gradient information, and local moves results in empirically observed ``stickiness'' and poor theoretical mixing properties -- lack of geometric ergodicity. In this paper, we introduce a new class of MCMC samplers that map the original high-dimensional problem in Euclidean space onto a sphere and remedy these notorious mixing problems. In particular, we develop random-walk Metropolis type algorithms as well as versions of the Bouncy Particle Sampler that are uniformly ergodic for a large class of light and heavy-tailed distributions and also empirically exhibit rapid convergence in high dimensions. In the best scenario, the proposed samplers can enjoy the ``blessings of dimensionality'' that the convergence is faster in higher dimensions.
翻訳日:2024-02-22 21:58:27 公開日:2024-02-21
# 信頼できるグラフニューラルネットワーク:側面、方法、トレンド

Trustworthy Graph Neural Networks: Aspects, Methods and Trends ( http://arxiv.org/abs/2205.07424v2 )

ライセンス: Link先を確認
He Zhang, Bang Wu, Xingliang Yuan, Shirui Pan, Hanghang Tong, Jian Pei(参考訳) グラフニューラルネットワーク(GNN)は、レコメンデーションシステムや質問応答といった日々の応用から、生命科学における薬物発見や天体物理学におけるn-bodyシミュレーションといった最先端技術まで、さまざまな現実シナリオのための有能なグラフ学習手法として登場した。 しかし、タスクパフォーマンスだけがGNNの要件ではない。 パフォーマンス指向のGNNは、敵の攻撃に対する脆弱性、不利なグループに対する説明不能な差別、エッジコンピューティング環境における過剰なリソース消費などの潜在的な副作用を示してきた。 こうした意図しない害を避けるには、信頼性に特徴付けられる有能なGNNを構築する必要がある。 そこで本稿では,様々なコンピューティング技術の観点から,信頼性の高いGNNを構築するための包括的なロードマップを提案する。 本調査では,信頼性,説明可能性,プライバシー,公正性,説明責任,環境保全の6つの側面から,基本概念を紹介し,信頼に値するGNNに対する既存の取り組みを包括的に要約する。 さらに、信頼に値するGNNの上の6つの側面の複雑な相互アスペクト関係を強調した。 最後に,信頼度の高いgnnの研究と産業化を促進するためのトレンドの方向性について概説する。

Graph neural networks (GNNs) have emerged as a series of competent graph learning methods for diverse real-world scenarios, ranging from daily applications like recommendation systems and question answering to cutting-edge technologies such as drug discovery in life sciences and n-body simulation in astrophysics. However, task performance is not the only requirement for GNNs. Performance-oriented GNNs have exhibited potential adverse effects like vulnerability to adversarial attacks, unexplainable discrimination against disadvantaged groups, or excessive resource consumption in edge computing environments. To avoid these unintentional harms, it is necessary to build competent GNNs characterised by trustworthiness. To this end, we propose a comprehensive roadmap to build trustworthy GNNs from the view of the various computing technologies involved. In this survey, we introduce basic concepts and comprehensively summarise existing efforts for trustworthy GNNs from six aspects, including robustness, explainability, privacy, fairness, accountability, and environmental well-being. Additionally, we highlight the intricate cross-aspect relations between the above six aspects of trustworthy GNNs. Finally, we present a thorough overview of trending directions for facilitating the research and industrialisation of trustworthy GNNs.
翻訳日:2024-02-22 21:58:08 公開日:2024-02-21
# Fiat-Shamir:共有絡みがあっても証明できない証明

Fiat-Shamir for Proofs Lacks a Proof Even in the Presence of Shared Entanglement ( http://arxiv.org/abs/2204.02265v4 )

ライセンス: Link先を確認
Fr\'ed\'eric Dupuis, Philippe Lamontagne, Louis Salvail(参考訳) 任意の共有物理リソースの暗号能力について検討する。 最も一般的なリソースは、プロトコルの実行開始時に、新しい絡み合った量子状態へのアクセスである。 これをCRQS(Common Reference Quantum State)モデルと呼び、よく知られたCommon Reference String(CRS)と類似しています。 CRQSモデルは、CRSモデルの自然な一般化であるが、より強力であるように見える: 二つの党構成では、CRQSは、互いに偏りのない多くの基底のうちの1つにおいて、最大に絡み合った状態を測定することによって、一度クエリされたランダムOracleに関連する性質を示すことがある。 私たちはこの概念を弱いワンタイムランダムオラクル(wotro)として定式化しており、ここでは$n$-bitの入力で条件付けされた場合、$m$-bitの出力のみにランダム性を持たせるように要求します。 n-m\in\omega(\lg n)$の場合、crqsモデルにおけるwotroのプロトコルは(非効率な)敵に攻撃される。 さらに,本手法は,暗号ゲーム仮定に完全にブラックボックス還元することで,スキームの計算安全性を証明できる可能性を排除する。 一方、CRQSモデル(CRQSはEPRペアのみからなる)において、WOTROを暗示するハッシュ関数に対して、非量子的な量子仮定を導入する。 最初に統計的にセキュアなWOTROプロトコルを構築し、$m=n$で出力をハッシュします。 WOTROの不可能性は以下の結果をもたらす。 まず,量子フィアット・シャミール変換の完全ブラックボックス化不可能性を示し,bitansky et al. (tcc 2013) の不可能性結果をcrqsモデルに拡張する。 第2に、量子ボルトが新たなボルトを発生せずに変更できない追加パラメータを持つ量子ライトニング(zhandry, eurocrypt 2019)のストレングテンバージョンに対して、完全にブラックボックス化できない結果を示す。 私たちの結果は、プレーンモデルで2ドルのメッセージプロトコルにも当てはまります。

We explore the cryptographic power of arbitrary shared physical resources. The most general such resource is access to a fresh entangled quantum state at the outset of each protocol execution. We call this the Common Reference Quantum State (CRQS) model, in analogy to the well-known Common Reference String (CRS). The CRQS model is a natural generalization of the CRS model but appears to be more powerful: in the two-party setting, a CRQS can sometimes exhibit properties associated with a Random Oracle queried once by measuring a maximally entangled state in one of many mutually unbiased bases. We formalize this notion as a Weak One-Time Random Oracle (WOTRO), where we only ask of the $m$-bit output to have some randomness when conditioned on the $n$-bit input. We show that when $n-m\in\omega(\lg n)$, any protocol for WOTRO in the CRQS model can be attacked by an (inefficient) adversary. Moreover, our adversary is efficiently simulatable, which rules out the possibility of proving the computational security of a scheme by a fully black-box reduction to a cryptographic game assumption. On the other hand, we introduce a non-game quantum assumption for hash functions that implies WOTRO in the CRQS model (where the CRQS consists only of EPR pairs). We first build a statistically secure WOTRO protocol where $m=n$, then hash the output. The impossibility of WOTRO has the following consequences. First, we show the fully-black-box impossibility of a quantum Fiat-Shamir transform, extending the impossibility result of Bitansky et al. (TCC 2013) to the CRQS model. Second, we show a fully-black-box impossibility result for a strenghtened version of quantum lightning (Zhandry, Eurocrypt 2019) where quantum bolts have an additional parameter that cannot be changed without generating new bolts. Our results also apply to $2$-message protocols in the plain model.
翻訳日:2024-02-22 21:57:21 公開日:2024-02-21
# drive&segment:クロスモーダル蒸留による都市景観の教師なし意味セグメンテーション

Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via Cross-modal Distillation ( http://arxiv.org/abs/2203.11160v2 )

ライセンス: Link先を確認
Antonin Vobecky, David Hurych, Oriane Sim\'eoni, Spyros Gidaris, Andrei Bursuc, Patrick P\'erez, Josef Sivic(参考訳) 本研究は、カメラとLiDARセンサーを搭載した車両が収集した生の非計算データから、手動のアノテーションを使わずに、都市景観における画素単位のセマンティックイメージセグメンテーションを学習する。 私たちの貢献は3倍です。 まず,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。 提案手法の主な要素は,LiDAR点雲を解析して空間的に一貫したオブジェクトの提案を得るオブジェクト提案モジュールの利用である。 第二に、これらの3Dオブジェクトの提案は入力画像と一致し、セマンティックに意味のある擬似クラスに確実にクラスタ化可能であることを示す。 最後に, 擬似クラスに部分的にアノテートされた画像データを利用して, 画像意味セマンティクスセグメンテーションのためのトランスフォーマモデルを訓練するクロスモーダル蒸留法を開発した。 筆者らは,4つのテストデータセット(Cityscapes, Dark Zurich, Nighttime Driving, ACDC)を微調整せずにテストすることで,本手法の一般化能力を示すとともに,この問題に関する現在の技術状況と比較して,大幅な改善を示す。 project webpage https://vobecant.github.io/driveandsegment/ コードなどを参照。

This work investigates learning pixel-wise semantic image segmentation in urban scenes without any manual annotation, just from the raw non-curated data collected by cars which, equipped with cameras and LiDAR sensors, drive around a city. Our contributions are threefold. First, we propose a novel method for cross-modal unsupervised learning of semantic image segmentation by leveraging synchronized LiDAR and image data. The key ingredient of our method is the use of an object proposal module that analyzes the LiDAR point cloud to obtain proposals for spatially consistent objects. Second, we show that these 3D object proposals can be aligned with the input images and reliably clustered into semantically meaningful pseudo-classes. Finally, we develop a cross-modal distillation approach that leverages image data partially annotated with the resulting pseudo-classes to train a transformer-based model for image semantic segmentation. We show the generalization capabilities of our method by testing on four different testing datasets (Cityscapes, Dark Zurich, Nighttime Driving and ACDC) without any finetuning, and demonstrate significant improvements compared to the current state of the art on this problem. See project webpage https://vobecant.github.io/DriveAndSegment/ for the code and more.
翻訳日:2024-02-22 21:56:44 公開日:2024-02-21
# ハミルトニアンダイナミクスの確率モデルによる最適制御の学習

Learning Optimal Control with Stochastic Models of Hamiltonian Dynamics ( http://arxiv.org/abs/2111.08108v2 )

ライセンス: Link先を確認
Chandrajit Bajaj and Minh Nguyen(参考訳) 最適制御問題はポントリャーギンの最大原理を適用し、ハミルトニアン力学系のために解くことで解くことができる。 本稿では,最適制御問題に取り組むための新しい学習フレームワークを提案する。 ポントリャーギンの最大原理を元の最適制御問題に適用することにより、学習焦点はハミルトニアンダイナミクスと対応する随伴変数の低減にシフトする。 減少ハミルトニアンネットワークは、ポントリャーギンの最大原理の条件から導かれる損失関数を最小化することで学習することができる。 学習過程は、より効率的な経路探索プロセスをもたらす変分オートエンコーダを用いて、縮小ハミルトンの後方分布を漸進的に学習することでさらに改善される。 学習フレームワークを適用してタスクを制御し、競争結果を得る。

Optimal control problems can be solved by applying the Pontryagin maximum principle and then solving for a Hamiltonian dynamical system. In this paper, we propose novel learning frameworks to tackle optimal control problems. By applying the Pontryagin maximum principle to the original optimal control problem, the learning focus shifts to reduced Hamiltonian dynamics and corresponding adjoint variables. The reduced Hamiltonian networks can be learned by going backward in time and then minimizing loss function deduced from the Pontryagin maximum principle's conditions. The learning process is further improved by progressively learning a posterior distribution of reduced Hamiltonians, utilizing a variational autoencoder which leads to more effective path exploration process. We apply our learning frameworks to control tasks and obtain competitive results.
翻訳日:2024-02-22 21:56:18 公開日:2024-02-21
# 確率近似と強化学習における漸近統計量のODE法

The ODE Method for Asymptotic Statistics in Stochastic Approximation and Reinforcement Learning ( http://arxiv.org/abs/2110.14427v4 )

ライセンス: Link先を確認
Vivek Borkar, Shuhang Chen, Adithya Devraj, Ioannis Kontoyiannis and Sean Meyn(参考訳) この論文は確率近似再帰に関するもので、 \[ \theta_{n+1}= \theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1}) \,\quad n\ge 0, \] ここで {\em estimates} $\theta_n\in\Re^d$ と $ \{ \Phi_n \}$ は一般状態空間上のマルコフ連鎖である。 消滅するステップサイズ列上の標準的なリプシッツの仮定と条件に加えて、関連する \textit{mean flow} $ \tfrac{d}{dt} \vartheta_t = \bar{f}(\vartheta_t)$ が、連鎖の定常分布を持つ$\bar{f}(\theta)=\text{E}[f(\theta,\Phi)]$ で表される定常点と世界的に漸近的に安定であると仮定する。 主な結果は、平均流れに関する追加条件と、連鎖のドンスカー=ヴァラダン・リャプノフドリフト条件(dv3)によって確立される。 (i)$L_4$の見積もりの収束を意味する適切なリャプノフ函数が構成される。 (ii)正規化誤差に対する通常の1次元CLTと同様に関数型CLTが確立される。 モーメント境界は CLT と結合し、正規化された共分散 $\text{ E} [ z_n z_n^T ]$ を CLT の漸近共分散 $\Sigma^\Theta$ に収束させる。 (iii) CLTは、ステップサイズに関する標準的な仮定に従う平均パラメータの正規化バージョン $z^{\text{ PR}}_n$ を保持する。 さらに、$\theta^{\text{ PR}}_n$ と $z^{\text{ PR}}_n$ の正規化共分散は、Polyak と Ruppert の最小共分散である $\Sigma^{\text{ PR}}$ に収束する。 (iv) 例えば、$f$と$\bar{f}$が$\theta$で線型であり、マルコフ連鎖は幾何学的にエルゴード的であるが満足しない(DV3)。 アルゴリズムは収束するが、$\theta_n$ の第二モーメントは非有界であり、実際には発散する。

The paper concerns the stochastic approximation recursion, \[ \theta_{n+1}= \theta_n + \alpha_{n + 1} f(\theta_n, \Phi_{n+1}) \,,\quad n\ge 0, \] where the {\em estimates} $\theta_n\in\Re^d$ and $ \{ \Phi_n \}$ is a Markov chain on a general state space. In addition to standard Lipschitz assumptions and conditions on the vanishing step-size sequence, it is assumed that the associated \textit{mean flow} $ \tfrac{d}{dt} \vartheta_t = \bar{f}(\vartheta_t)$, is globally asymptotically stable with stationary point denoted $\theta^*$, where $\bar{f}(\theta)=\text{ E}[f(\theta,\Phi)]$ with $\Phi$ having the stationary distribution of the chain. The main results are established under additional conditions on the mean flow and a version of the Donsker-Varadhan Lyapunov drift condition known as (DV3) for the chain: (i) An appropriate Lyapunov function is constructed that implies convergence of the estimates in $L_4$. (ii) A functional CLT is established, as well as the usual one-dimensional CLT for the normalized error. Moment bounds combined with the CLT imply convergence of the normalized covariance $\text{ E} [ z_n z_n^T ]$ to the asymptotic covariance $\Sigma^\Theta$ in the CLT, where $z_n= (\theta_n-\theta^*)/\sqrt{\alpha_n}$. (iii) The CLT holds for the normalized version $z^{\text{ PR}}_n$ of the averaged parameters $\theta^{\text{ PR}}_n$, subject to standard assumptions on the step-size. Moreover, the normalized covariance of both $\theta^{\text{ PR}}_n$ and $z^{\text{ PR}}_n$ converge to $\Sigma^{\text{ PR}}$, the minimal covariance of Polyak and Ruppert. (iv)} An example is given where $f$ and $\bar{f}$ are linear in $\theta$, and the Markov chain is geometrically ergodic but does not satisfy (DV3). While the algorithm is convergent, the second moment of $\theta_n$ is unbounded and in fact diverges.
翻訳日:2024-02-22 21:56:04 公開日:2024-02-21
# マルチタスク学習のためのコンフリクト逆勾配降下

Conflict-Averse Gradient Descent for Multi-task Learning ( http://arxiv.org/abs/2110.14048v2 )

ライセンス: Link先を確認
Bo Liu and Xingchao Liu and Xiaojie Jin and Peter Stone and Qiang Liu(参考訳) マルチタスク学習の目標は、多様なタスクのモデル構造を共有することで、単一タスク学習よりも効率的な学習を可能にすることである。 標準的なマルチタスク学習の目的は、すべてのタスクの平均損失を最小限に抑えることである。 単純ではあるが、この目的を使用すると、個別に学習するよりも、各タスクの最終的なパフォーマンスがずっと悪くなります。 マルチタスクモデルの最適化における大きな課題は、異なるタスク目的の勾配が、特定のタスクのパフォーマンスを損なうような平均的な勾配方向に従うために適切に調整されていない、矛盾する勾配である。 以前の研究では、この問題を緩和するためにタスク勾配を操作するいくつかのヒューリスティックを提案している。 しかし、それらの多くは収束保証がなく、あるいは任意のパレート定常点に収束することができる。 本稿では,平均損失関数の最小化を図り,アルゴリズムの軌道を正規化するために,個々のタスクの局部的改善を最大限に活用する衝突-逆勾配降下(CAGrad)を提案する。 CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。 多目的最適化(MOO)文学における正規勾配降下(GD)と多重勾配降下アルゴリズム(MGDA)を特別な場合として含む。 一連の挑戦的なマルチタスク教師付き学習と強化学習タスクにおいて、cagradは以前の最先端のマルチ目的勾配操作法よりもパフォーマンスが向上する。

The goal of multi-task learning is to enable more efficient learning than single task learning by sharing model structures for a diverse set of tasks. A standard multi-task learning objective is to minimize the average loss across all tasks. While straightforward, using this objective often results in much worse final performance for each task than learning them independently. A major challenge in optimizing a multi-task model is the conflicting gradients, where gradients of different task objectives are not well aligned so that following the average gradient direction can be detrimental to specific tasks' performance. Previous work has proposed several heuristics to manipulate the task gradients for mitigating this problem. But most of them lack convergence guarantee and/or could converge to any Pareto-stationary point. In this paper, we introduce Conflict-Averse Gradient descent (CAGrad) which minimizes the average loss function, while leveraging the worst local improvement of individual tasks to regularize the algorithm trajectory. CAGrad balances the objectives automatically and still provably converges to a minimum over the average loss. It includes the regular gradient descent (GD) and the multiple gradient descent algorithm (MGDA) in the multi-objective optimization (MOO) literature as special cases. On a series of challenging multi-task supervised learning and reinforcement learning tasks, CAGrad achieves improved performance over prior state-of-the-art multi-objective gradient manipulation methods.
翻訳日:2024-02-22 21:55:01 公開日:2024-02-21
# 変分モンテカルロシミュレーションとスケール不変事前学習の収束性

Convergence of variational Monte Carlo simulation and scale-invariant pre-training ( http://arxiv.org/abs/2303.11602v3 )

ライセンス: Link先を確認
Nilin Abrahamsen and Zhiyan Ding and Gil Goldshlager and Lin Lin(参考訳) 電子構造問題に対するニューラルネットワーク波動関数の最適化に応用した変分モンテカルロ法(VMC)の理論的収束バウンダリを提案する。 エネルギー最小化に先立って一般的に用いられるエネルギー最小化相と教師付き事前学習相の両方について検討する。 エネルギー最小化フェーズでは、標準アルゴリズムは設計によってスケール不変であり、修正なしにこのアルゴリズムの収束の証明を提供する。 事前学習段階は、通常そのようなスケール不変性を持たない。 本稿では,事前学習フェーズにおけるスケール不変損失の利用を提案し,事前学習の高速化を実証する。

We provide theoretical convergence bounds for the variational Monte Carlo (VMC) method as applied to optimize neural network wave functions for the electronic structure problem. We study both the energy minimization phase and the supervised pre-training phase that is commonly used prior to energy minimization. For the energy minimization phase, the standard algorithm is scale-invariant by design, and we provide a proof of convergence for this algorithm without modifications. The pre-training stage typically does not feature such scale-invariance. We propose using a scale-invariant loss for the pretraining phase and demonstrate empirically that it leads to faster pre-training.
翻訳日:2024-02-22 21:46:55 公開日:2024-02-21
# 多点水平時空におけるガウス量子ステアリング

Gaussian quantum steering in multi-event horizon spacetime ( http://arxiv.org/abs/2212.05483v2 )

ライセンス: Link先を確認
Shu-Min Wu, Jin-Xuan Li, Xiao-Wei Fan, Wen-Mei Li, Xiao-Li Huang, Hao-Sheng Zeng(参考訳) 我々は、ブラックホール事象地平線(BEH)と宇宙事象地平線(CEH)の両方で与えられるシュワルツシルト・ド・シッター(SdS)時空におけるガウスの量子ステアリングを研究し、2つの異なるホーキング温度をもたらす。 ブラックホールのホーキング効果は常に量子ステアリングを減少させるが、膨張する宇宙のホーキング効果は必ずしも同じ役割を果たすわけではない。 ホーキング効果が量子ステアリングを改善するのは初めてである。 また、BEHに位置するオブザーバは、CEHに位置するオブザーバよりもステアビリティが高いことが判明した。 さらに,sds時空におけるステアリング非対称性と2方向・1方向・無方向ステアリング条件について検討した。 最後に,有効平衡温度のシナリオにおけるガウス量子ステアリングについて検討する。 量子ステアリングは有効温度で単調に減少するが、ブラックホールのホーキング温度で単調に上昇し、ホーキング効果が量子ステアリングを破壊できるという信念を否定する。

We study Gaussian quantum steering in the Schwarzschild-de Sitter (SdS) spacetime that is endowed with both a black hole event horizon (BEH) and a cosmological event horizon (CEH), giving rise to two different Hawking temperatures. It is shown that the Hawking effect of the black hole always reduces the quantum steering, but the Hawking effect of the expanding universe does not always play the same role. For the first time, we find that the Hawking effect can improve quantum steering. We also find that the observer who locates in the BEH has stronger steerability than the observer who locates in CEH. Further, we study the steering asymmetry, and the conditions for two-way, one-way and no-way steering in the SdS spacetime. Finally, we study the Gaussian quantum steering in the scenario of effective equilibrium temperature. We show that quantum steering reduces monotonically with the effective temperature but now increases monotonically with the Hawking temperature of the black hole, which banishes the belief that the Hawking effect can only destroy quantum steering.
翻訳日:2024-02-22 21:46:27 公開日:2024-02-21
# 平均治療効果に対する二重ロバストベイズ推定

Double Robust Bayesian Inference on Average Treatment Effects ( http://arxiv.org/abs/2211.16298v4 )

ライセンス: Link先を確認
Christoph Breunig, Ruixuan Liu, Zhengfei Yu(参考訳) 不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。 我々の頑健なベイズ的アプローチは、2つの重要な修正を含む: まず、条件平均関数の事前分布を調整する; 次に、結果のATEの後方分布を補正する。 いずれの調整も、ATE推定のための半パラメトリック影響関数によって動機付けられたパイロット推定器を利用する。 我々は、二重ロバスト性の下での新しい半パラメトリックなベルンシュタイン・ヴォン・ミス定理を確立することにより、ベイズ過程の漸近同値と効率的な頻度主義 ATE 推定器を証明し、条件付き平均関数の滑らかさの欠如は、確率スコアの高正規性とその逆によって補うことができる。 その結果、ベイズ信頼集合は漸近的に正確な被覆確率を持つ信頼区間を形成する。 シミュレーションでは,二重ロバストベイズ法では,従来のベイズ法よりも点推定の偏りが小さくなり,信頼区間の精度が向上した。 本手法は,全国支援労働デモテーションへの適用例を示す。

We propose a double robust Bayesian inference procedure on the average treatment effect (ATE) under unconfoundedness. Our robust Bayesian approach involves two important modifications: first, we adjust the prior distributions of the conditional mean function; second, we correct the posterior distribution of the resulting ATE. Both adjustments make use of pilot estimators motivated by the semiparametric influence function for ATE estimation. We prove asymptotic equivalence of our Bayesian procedure and efficient frequentist ATE estimators by establishing a new semiparametric Bernstein-von Mises theorem under double robustness; i.e., the lack of smoothness of conditional mean functions can be compensated by high regularity of the propensity score and vice versa. Consequently, the resulting Bayesian credible sets form confidence intervals with asymptotically exact coverage probability. In simulations, our double robust Bayesian procedure leads to significant bias reduction of point estimation over conventional Bayesian methods and more accurate coverage of confidence intervals compared to existing frequentist methods. We illustrate our method in an application to the National Supported Work Demonstration.
翻訳日:2024-02-22 21:45:32 公開日:2024-02-21
# アンサンブルカリキュラム学習と協調学習を用いた運動画像復号

Motor Imagery Decoding Using Ensemble Curriculum Learning and Collaborative Training ( http://arxiv.org/abs/2211.11460v2 )

ライセンス: Link先を確認
Georgios Zoumpourlis, Ioannis Patras(参考訳) 本研究では,脳電図(eeg)データからのクロスサブジェクトモータ画像(mi)デコードの問題について検討する。 マルチサブジェクト脳波データセットは、様々な個人差(脳解剖学、パーソナリティ、認知プロファイルなど)により、いくつかの種類の領域シフトを示す。 これらのドメインシフトは、複数オブジェクトのトレーニングを困難なタスクとし、堅牢なクロスオブジェクトの一般化を妨げる。 このような問題に取り組むためのドメイン一般化技術の重要性に触発されて、複数の特徴抽出器(第1段階)と共有分類器(第2段階)を備えた2段階のモデルアンサンブルアーキテクチャを提案し、2つの新しい損失項でエンドツーエンドを訓練する。 第1の損失はカリキュラム学習を適用し、各特徴抽出器を訓練対象のサブセットに特化させ、特徴の多様性を促進する。 第2の損失は、アンサンブルのモデル間の知識の協調的な交換を可能にする、センスブル蒸留の目的である。 提案手法をいくつかの最先端技術と比較し,2つのMIデータセット(PhyloNetとOpenBMI)に対して対象に依存しない実験を行った。 提案アルゴリズムは, トレーニング可能なパラメータの数を大幅に減らして, 5 倍のクロスバリデーションと1 桁のオブジェクトアウト評価設定の両方において, 全ての手法より優れる。 我々は,カリキュラム学習と協調学習の能力を組み合わせたモデルアンサンブルアプローチが,高い学習能力と堅牢な性能をもたらすことを実証した。 我々の研究は、多目的脳波データセットにおけるドメインシフトの問題に対処し、校正不要な脳-コンピュータインターフェースの道を開く。 コードはhttps://github.com/gzoumpourlis/Ensemble-MIで公開しています。

In this work, we study the problem of cross-subject motor imagery (MI) decoding from electroencephalography (EEG) data. Multi-subject EEG datasets present several kinds of domain shifts due to various inter-individual differences (e.g. brain anatomy, personality and cognitive profile). These domain shifts render multi-subject training a challenging task and also impede robust cross-subject generalization. Inspired by the importance of domain generalization techniques for tackling such issues, we propose a two-stage model ensemble architecture built with multiple feature extractors (first stage) and a shared classifier (second stage), which we train end-to-end with two novel loss terms. The first loss applies curriculum learning, forcing each feature extractor to specialize to a subset of the training subjects and promoting feature diversity. The second loss is an intra-ensemble distillation objective that allows collaborative exchange of knowledge between the models of the ensemble. We compare our method against several state-of-the-art techniques, conducting subject-independent experiments on two large MI datasets, namely PhysioNet and OpenBMI. Our algorithm outperforms all of the methods in both 5-fold cross-validation and leave-one-subject-out evaluation settings, using a substantially lower number of trainable parameters. We demonstrate that our model ensembling approach combining the powers of curriculum learning and collaborative training, leads to high learning capacity and robust performance. Our work addresses the issue of domain shifts in multi-subject EEG datasets, paving the way for calibration-free brain-computer interfaces. We make our code publicly available at: https://github.com/gzoumpourlis/Ensemble-MI
翻訳日:2024-02-22 21:45:11 公開日:2024-02-21
# 運動とオブジェクト連続性によるオブジェクト表現学習の促進

Boosting Object Representation Learning via Motion and Object Continuity ( http://arxiv.org/abs/2211.09771v3 )

ライセンス: Link先を確認
Quentin Delfosse, Wolfgang Stammer, Thomas Rothenbacher, Dwarak Vittal, Kristian Kersting(参考訳) 最近の教師なしマルチオブジェクト検出モデルは印象的な性能改善を示しており、主に新しいアーキテクチャインダクティブバイアスに起因する。 残念なことに、下流タスクに最適なオブジェクトエンコーディングを生成する可能性がある。 これを克服するために,物体の運動と連続性,すなわち物体が出現・消滅しない状態を利用するように提案する。 これは2つのメカニズムによって達成される。 (i)光学的流れの統合による物体の位置の事前提供 (ii)連続した画像フレーム間のコントラストオブジェクト連続性損失。 明示的なディープアーキテクチャを開発するのではなく、結果のMotion and Object Continuity(MOC)スキームは、任意のベースラインオブジェクト検出モデルを使用してインスタンス化することができる。 この結果から,オブジェクト発見,収束速度,全般的な潜在オブジェクト表現,特にアタリゲームにおいて,SOTAモデルの性能は大幅に向上した。 全体として、下流タスクの動作とオブジェクト連続性を統合する利点は明らかであり、再構成のみに基づくオブジェクト表現学習を超えていく。

Recent unsupervised multi-object detection models have shown impressive performance improvements, largely attributed to novel architectural inductive biases. Unfortunately, they may produce suboptimal object encodings for downstream tasks. To overcome this, we propose to exploit object motion and continuity, i.e., objects do not pop in and out of existence. This is accomplished through two mechanisms: (i) providing priors on the location of objects through integration of optical flow, and (ii) a contrastive object continuity loss across consecutive image frames. Rather than developing an explicit deep architecture, the resulting Motion and Object Continuity (MOC) scheme can be instantiated using any baseline object detection model. Our results show large improvements in the performances of a SOTA model in terms of object discovery, convergence speed and overall latent object representations, particularly for playing Atari games. Overall, we show clear benefits of integrating motion and object continuity for downstream tasks, moving beyond object representation learning based only on reconstruction.
翻訳日:2024-02-22 21:44:39 公開日:2024-02-21
# 量子ニューロモルフィックコンピューティングのための表現型量子パーセプトロン

Expressive Quantum Perceptrons for Quantum Neuromorphic Computing ( http://arxiv.org/abs/2211.07075v3 )

ライセンス: Link先を確認
Rodrigo Araiza Bravo, Khadijeh Najafi, Taylor L. Patti, Xun Gao, Susanne F. Yelin(参考訳) 量子ニューロモルフィック・コンピューティング(Quantum Neuromorphic Computing、QNC)は、量子機械学習(QML)のサブフィールドであり、固有のシステムダイナミクスを生かしている。 その結果、qncは現代のノイズの多い量子ハードウェア上で動作でき、近い将来に挑戦的なアルゴリズムを実現することができる。 QNCの鍵となる問題は、表現力のある量子ニューロモルフィック計算を保証するために必要となるダイナミクスを特徴づけることである。 我々は、量子パーセプトロン(QP)と呼ばれるQNCアーキテクチャのためのビルディングブロックを提案することでこの問題に対処する。 提案したQPs計算は、相互作用量子ビットと可変結合定数のアナログダイナミクスに基づく。 我々は、QPは制限されたリソースを持ち、様々な機械学習アーキテクチャの構成要素であるニューロンの単純な数学的モデルである古典パーセプトロンと同等の量子であることを示す。 さらに,QPは理論上任意のユニタリ演算を生成可能であることを示す。 したがって、QPは古典的よりも計算的に表現力が高い。 その結果、我々のQPを構築できるQNCアーキテクチャは、理論的には普遍的である。 エンタングルメントシンニングと呼ばれるQPにおけるバレンプラトーを緩和する手法を提案する。 量子状態間の内部積の計算,エネルギー測定,時間反転など,多数のQML問題に適用することで,QPの有効性を示す。 最後に,QPの実装の可能性と,より複雑なQNCアーキテクチャの構築方法について論じる。

Quantum neuromorphic computing (QNC) is a sub-field of quantum machine learning (QML) that capitalizes on inherent system dynamics. As a result, QNC can run on contemporary, noisy quantum hardware and is poised to realize challenging algorithms in the near term. One key issue in QNC is the characterization of the requisite dynamics for ensuring expressive quantum neuromorphic computation. We address this issue by proposing a building block for QNC architectures, what we call quantum perceptrons (QPs). Our proposed QPs compute based on the analog dynamics of interacting qubits with tunable coupling constants. We show that QPs are, with restricted resources, a quantum equivalent to the classical perceptron, a simple mathematical model for a neuron that is the building block of various machine learning architectures. Moreover, we show that QPs are theoretically capable of producing any unitary operation. Thus, QPs are computationally more expressive than their classical counterparts. As a result, QNC architectures built our of QPs are, theoretically, universal. We introduce a technique for mitigating barren plateaus in QPs called entanglement thinning. We demonstrate QPs' effectiveness by applying them to numerous QML problems, including calculating the inner products between quantum states, energy measurements, and time-reversal. Finally, we discuss potential implementations of QPs and how they can be used to build more complex QNC architectures.
翻訳日:2024-02-22 21:43:11 公開日:2024-02-21
# CLEEGN: プラグアンドプレイ自動脳波再構成のための畳み込みニューラルネットワーク

CLEEGN: A Convolutional Neural Network for Plug-and-Play Automatic EEG Reconstruction ( http://arxiv.org/abs/2210.05988v2 )

ライセンス: Link先を確認
Pin-Hua Lai, Bo-Shan Wang, Wei-Chun Yang, Hsiang-Chieh Tsou, Chun-Shu Wei(参考訳) ヒト脳波(Human Electroencephalography、EEG)は、高時間分解能で皮質神経電気生理学的活動を検出する脳波モニタリング法である。 eegの適用によって生じる最大の課題の1つは、記録中に避けられないアーティファクトに影響を受けやすい不安定な信号品質である。 現在までに、脳波アーチファクトの除去と再構築のための既存の技術は、オフライン分析のみに適用されているか、あるいはオンライン再構築を容易にするために個別のトレーニングデータが必要である。 脳波自動再構成のための新しい畳み込みニューラルネットワークであるCLEEGNを提案する。 CLEEGNは、既存のデータを使った主観非依存の事前訓練モデルに基づいており、さらなるキャリブレーションなしで新しいユーザーで操作できる。 cleegnの性能は,よく検討されたラベル付きデータセットの波形観測,再構成誤差評価,復号精度など複数の評価を用いて検証した。 模擬オンライン検証の結果, 校正がなくても, CLEEGNは脳活動の維持に大きく貢献し, 再構成された脳波データの復号精度において, オンライン/オフラインのアーティファクト除去手法を先導する性能を発揮することが示唆された。 さらに、モデルパラメータと潜在特徴の可視化はモデル行動を示し、既存の神経科学知識に関する説明可能な洞察を明らかにする。 我々は、CLEEGNの広範囲な応用を、オンラインプラグアンドプレイ脳波復号と分析の今後の研究に期待する。

Human electroencephalography (EEG) is a brain monitoring modality that senses cortical neuroelectrophysiological activity in high-temporal resolution. One of the greatest challenges posed in applications of EEG is the unstable signal quality susceptible to inevitable artifacts during recordings. To date, most existing techniques for EEG artifact removal and reconstruction are applicable to offline analysis solely, or require individualized training data to facilitate online reconstruction. We have proposed CLEEGN, a novel convolutional neural network for plug-and-play automatic EEG reconstruction. CLEEGN is based on a subject-independent pre-trained model using existing data and can operate on a new user without any further calibration. The performance of CLEEGN was validated using multiple evaluations including waveform observation, reconstruction error assessment, and decoding accuracy on well-studied labeled datasets. The results of simulated online validation suggest that, even without any calibration, CLEEGN can largely preserve inherent brain activity and outperforms leading online/offline artifact removal methods in the decoding accuracy of reconstructed EEG data. In addition, visualization of model parameters and latent features exhibit the model behavior and reveal explainable insights related to existing knowledge of neuroscience. We foresee pervasive applications of CLEEGN in prospective works of online plug-and-play EEG decoding and analysis.
翻訳日:2024-02-22 21:42:51 公開日:2024-02-21
# 洗濯機用ファジィ論理制御装置の設計

Design of Fuzzy Logic Controller for Washing Machine ( http://arxiv.org/abs/2210.00187v2 )

ライセンス: Link先を確認
Kriti Dheerawat(参考訳) 技術が進歩するにつれて物事はより進歩し、機械は手作業の大半をこなしている。 最もよく使われる家電は布の洗濯機である。 本稿では,mamdaniアプローチを用いてマルチ入力マルチアウトプットに基づくアルゴリズムを開発した。 このアルゴリズムはpythonで実装されており、このシミュレーションの結果、洗濯機は低い計算コストでより良い実行を提供することがわかった。

Things are becoming more advanced as technology advances,and machines now perform the majority of the manual work. The most often used home appliance is the washing machine for cloths. In this paper, we used the Mamdani approach and created an algorithm based on multi-input multi-output. The algorithm is implemented in Python.The results of this simulation show that the washing machine provides better execution at a low computation cost
翻訳日:2024-02-22 21:42:10 公開日:2024-02-21
# バイオメトリックスにおける非目標近傍衝突攻撃:現実世界の境界と理論的限界

Untargeted Near-collision Attacks on Biometrics: Real-world Bounds and Theoretical Limits ( http://arxiv.org/abs/2304.01580v5 )

ライセンス: Link先を確認
Axel Durbet and Paul-Marie Grollemund and Kevin Thiry-Atighehchi(参考訳) 生体認証システムは、識別または検証の2つの異なるモードで動作する。 第1のモードでは、システムは、マッチするすべてのユーザの登録テンプレートを検索することで、個人を認識する。 第2モードでは、新たに提供されたテンプレートと登録されたテンプレートを比較して、ユーザのアイデンティティクレームを検証する。 バイオメトリック変換方式は通常、暗号方式によりよりよく扱われるバイナリテンプレートを生成し、比較は2つのバイオメトリックテンプレート間の類似性に関する情報をリークする距離に基づいて行われる。 認識しきい値調整による偽の一致率と偽の一致率の両方が認識精度を規定し、システムのセキュリティを規定している。 我々の知る限り、情報漏洩の最小化、すなわち閾値との比較のバイナリ結果に対するセキュリティの正式な扱いを提供する研究はほとんどない。 本稿では,オンラインとオフラインの両方,および識別モードと検証モードの両方で実行可能な非ターゲティング攻撃に焦点を当てる。 まず,生体計測システムの精度測定に焦点をあてる。 本稿では,False Match Rate (FMR) とFalse Positive Identification Rate (FPIR) を用いて,これらのシステムのセキュリティに対処する。 これらのメトリクスを用いてニアコレーションを研究することで、選択したFMRが与えられたデータベース内の最大ユーザ数を推定し、セキュリティと精度を維持することができる。 これらの結果は文献のシステムから評価される。 一方,バイオメトリックシステムの理論的セキュリティ限界を評価するためには,確率的モデリングに依存する。 この距離空間とシステムパラメータ(テンプレートサイズ、しきい値、データベースサイズ)の研究は、ターゲット外の攻撃の複雑さと近距離衝突の確率を与える。

A biometric recognition system can operate in two distinct modes: identification or verification. In the first mode, the system recognizes an individual by searching the enrolled templates of all the users for a match. In the second mode, the system validates a user's identity claim by comparing the fresh provided template with the enrolled template. The biometric transformation schemes usually produce binary templates that are better handled by cryptographic schemes, and the comparison is based on a distance that leaks information about the similarities between two biometric templates. Both the experimentally determined false match rate and false non-match rate through recognition threshold adjustment define the recognition accuracy, and hence the security of the system. To our knowledge, few works provide a formal treatment of security in case of minimal information leakage, i.e., the binary outcome of a comparison with a threshold. In this paper, we focus on untargeted attacks that can be carried out both online and offline, and in both identification and verification modes. On the first hand, we focus our analysis on the accuracy metrics of biometric systems. We provide the complexity of untargeted attacks using the False Match Rate (FMR) and the False Positive Identification Rate (FPIR) to address the security of these systems. Studying near-collisions with these metrics allows us to estimate the maximum number of users in a database, given a chosen FMR, to preserve the security and the accuracy. These results are evaluated on systems from the literature. On the other hand, we rely on probabilistic modelling to assess the theoretical security limits of biometric systems. The study of this metric space, and system parameters (template size, threshold and database size), gives us the complexity of untargeted attacks and the probability of a near-collision.
翻訳日:2024-02-22 21:34:38 公開日:2024-02-21
# MDTv2:Masked Diffusion Transformerは強力な画像合成装置

MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer ( http://arxiv.org/abs/2303.14389v2 )

ライセンス: Link先を確認
Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan(参考訳) 画像合成の成功にもかかわらず、拡散確率モデル(dpms)は、しばしば画像内の対象部品間の関係を学習する文脈推論能力が欠如しており、学習プロセスが遅いことを観察する。 この問題を解決するために,画像中のオブジェクト意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案するMasked Diffusion Transformer (MDT)を提案する。 訓練中、MDTは特定のトークンを隠蔽するために潜伏空間で活動する。 そして、非対称拡散変換器は、拡散生成過程を維持しながら、マスク付きトークンからマスク付きトークンを予測するように設計されている。 mdtは不完全なコンテクスト入力から画像の全情報を再構築することができ、画像トークン間の関連関係を学習することができる。 MDTv2という,より効率的なマクロネットワーク構造とトレーニング戦略により,MDTをさらに改善する。 実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。 ソースコードはhttps://github.com/sail-sg/MDTで公開されている。

Despite its success in image synthesis, we observe that diffusion probabilistic models (DPMs) often lack contextual reasoning ability to learn the relations among object parts in an image, leading to a slow learning process. To solve this issue, we propose a Masked Diffusion Transformer (MDT) that introduces a mask latent modeling scheme to explicitly enhance the DPMs' ability to contextual relation learning among object semantic parts in an image. During training, MDT operates in the latent space to mask certain tokens. Then, an asymmetric diffusion transformer is designed to predict masked tokens from unmasked ones while maintaining the diffusion generation process. Our MDT can reconstruct the full information of an image from its incomplete contextual input, thus enabling it to learn the associated relations among image tokens. We further improve MDT with a more efficient macro network structure and training strategy, named MDTv2. Experimental results show that MDTv2 achieves superior image synthesis performance, e.g., a new SOTA FID score of 1.58 on the ImageNet dataset, and has more than 10x faster learning speed than the previous SOTA DiT. The source code is released at https://github.com/sail-sg/MDT.
翻訳日:2024-02-22 21:34:07 公開日:2024-02-21
# 大規模言語モデルにおけるヒューマンライクな翻訳評価を可能にする誤り解析

Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models ( http://arxiv.org/abs/2303.13809v3 )

ライセンス: Link先を確認
Qingyu Lu, Baopu Qiu, Liang Ding, Kanjian Zhang, Tom Kocmi, Dacheng Tao(参考訳) 生成型大規模言語モデル(LLM)、例えばChatGPTは、機械翻訳、テキスト要約など、いくつかのNLPタスクにおいて顕著な習熟性を示している。 最近の研究 (Kocmi and Federmann, 2023) では、機械翻訳(MT)の品質評価にLLMを用いることで、システムレベルでは最先端のパフォーマンスが得られるが、セグメントレベルでは‘textit{performs’が不十分であることが示されている。 MTの品質評価におけるLCMの性能をさらに向上するため,いくつかのプロンプト設計について検討し,Chain-of-Thoughts (Wei et al., 2022) とError Analysis (Lu et al., 2023) を組み合わせた新しいプロンプト法である \textbf{\textt{Error Analysis Prompting}} (EAPrompt) を提案する。 この手法は,多次元品質指標 (MQM, Freitag et al. (2021)) と \textit{produces to explainable and reliable MT evaluations at the system and segment level} をエミュレートする。 WMT22メトリクス共有タスクの実験結果は、異なる構造を持つ様々なLLM上でEAPromptの有効性を検証する。 さらに分析した結果、EAPromptは大規模なエラーとマイナーエラーを効果的に区別し、MQMと類似したエラー数の分布を共有していることがわかった。 これらの結果から,人為的評価手法としてのEAPromptの可能性が示唆された。

Generative large language models (LLMs), e.g., ChatGPT, have demonstrated remarkable proficiency across several NLP tasks, such as machine translation, text summarization. Recent research (Kocmi and Federmann, 2023) has shown that utilizing LLMs for assessing the quality of machine translation (MT) achieves state-of-the-art performance at the system level but \textit{performs poorly at the segment level}. To further improve the performance of LLMs on MT quality assessment, we investigate several prompting designs, and propose a new prompting method called \textbf{\texttt{Error Analysis Prompting}} (EAPrompt) by combining Chain-of-Thoughts (Wei et al., 2022) and Error Analysis (Lu et al., 2023). This technique emulates the commonly accepted human evaluation framework - Multidimensional Quality Metrics (MQM, Freitag et al. (2021)) and \textit{produces explainable and reliable MT evaluations at both the system and segment level}. Experimental Results from the WMT22 metrics shared task validate the effectiveness of EAPrompt on various LLMs, with different structures. Further analysis confirms that EAPrompt effectively distinguishes major errors from minor ones, while also sharing a similar distribution of the number of errors with MQM. These findings highlight the potential of EAPrompt as a human-like evaluator prompting technique for MT evaluation.
翻訳日:2024-02-22 21:33:44 公開日:2024-02-21
# 心エコー図合成のための特徴条件付きカスケードビデオ拡散モデル

Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis ( http://arxiv.org/abs/2303.12644v3 )

ライセンス: Link先を確認
Hadrien Reynaud, Mengyun Qiao, Mischa Dombrowski, Thomas Day, Reza Razavi, Alberto Gomez, Paul Leeson, Bernhard Kainz(参考訳) 画像合成は、機械学習手法を臨床に翻訳する価値をもたらすことが期待されている。 モデルロバスト性、ドメイン転送、因果モデリング、オペレータトレーニングといった基本的な問題は、合成データを通じてアプローチ可能である。 特に、Ultrasound Imagingのような演算子依存のモダリティは、画像およびビデオ生成のための堅牢なフレームワークを必要とする。 これまでのところ、ビデオ生成は出力データと同等のリッチな入力データ、例えば画像シーケンスと条件付きイン、ビデオ出力を提供することでのみ可能だった。 しかし, 臨床資料は乏しく, 単一の画像のみを報告, 保存しているため, 患者固有の分析やリッチトレーニングデータの生成は現在のアプローチでは不可能である。 本稿では,ビデオモデリングのための推定拡散モデルを拡張し,単一の画像から可視な映像シーケンスを生成し,臨床パラメータを任意に設定する。 心エコー図の文脈において、左室射出率の変動について検討し、これらの検査から得られた最も本質的な臨床指標について検討する。 すべての実験で利用可能なEchoNet-Dynamicデータセットを使用します。 我々の画像からシーケンスへのアプローチは、最近提案されたシーケンスからシーケンス生成手法よりも38ポイント高い93%のR^2$スコアを得る。 コードとモデルはhttps://github.com/hreynaud/echodiffusionで入手できる。

Image synthesis is expected to provide value for the translation of machine learning methods into clinical practice. Fundamental problems like model robustness, domain transfer, causal modelling, and operator training become approachable through synthetic data. Especially, heavily operator-dependant modalities like Ultrasound imaging require robust frameworks for image and video generation. So far, video generation has only been possible by providing input data that is as rich as the output data, e.g., image sequence plus conditioning in, video out. However, clinical documentation is usually scarce and only single images are reported and stored, thus retrospective patient-specific analysis or the generation of rich training data becomes impossible with current approaches. In this paper, we extend elucidated diffusion models for video modelling to generate plausible video sequences from single images and arbitrary conditioning with clinical parameters. We explore this idea within the context of echocardiograms by looking into the variation of the Left Ventricle Ejection Fraction, the most essential clinical metric gained from these examinations. We use the publicly available EchoNet-Dynamic dataset for all our experiments. Our image to sequence approach achieves an $R^2$ score of 93%, which is 38 points higher than recently proposed sequence to sequence generation methods. Code and models will be available at: https://github.com/HReynaud/EchoDiffusion.
翻訳日:2024-02-22 21:33:08 公開日:2024-02-21
# メタヒューリスティックアルゴリズムの自動設計:調査

Automated Design of Metaheuristic Algorithms: A Survey ( http://arxiv.org/abs/2303.06532v3 )

ライセンス: Link先を確認
Qi Zhao, Qiqi Duan, Bai Yan, Shi Cheng, Yuhui Shi(参考訳) メタヒューリスティクスは、その探索論理が利用可能な解表現、解の品質評価、局所性のある特定の問題に適用できるため、学界や実践において大きな成功を収めている。 対象問題を解決するためのメタヒューリスティックアルゴリズムを手動で設計することは、手間がかかり、エラーが発生し、専門知識が集中的に必要であるとして批判される。 これにより、メタヒューリスティックアルゴリズムの自動設計への関心が高まる。 潜在的な設計選択を完全に探究する計算能力があれば、自動設計は人間レベルの設計に到達し、さらには高性能なアルゴリズムをより広い範囲の研究者や実践者に届けることができるだろう。 本稿では,メタヒューリスティックアルゴリズムの自動設計について,設計空間,設計戦略,性能評価戦略,対象問題の共通点と代表的手法について調査を行い,その全体像について述べる。

Metaheuristics have gained great success in academia and practice because their search logic can be applied to any problem with available solution representation, solution quality evaluation, and certain notions of locality. Manually designing metaheuristic algorithms for solving a target problem is criticized for being laborious, error-prone, and requiring intensive specialized knowledge. This gives rise to increasing interest in automated design of metaheuristic algorithms. With computing power to fully explore potential design choices, the automated design could reach and even surpass human-level design and could make high-performance algorithms accessible to a much wider range of researchers and practitioners. This paper presents a broad picture of automated design of metaheuristic algorithms, by conducting a survey on the common grounds and representative techniques in terms of design space, design strategies, performance evaluation strategies, and target problems in this field.
翻訳日:2024-02-22 21:32:44 公開日:2024-02-21
# PC-JeDi:高エネルギー物理における粒子雲生成のための拡散

PC-JeDi: Diffusion for Particle Cloud Generation in High Energy Physics ( http://arxiv.org/abs/2303.05376v2 )

ライセンス: Link先を確認
Matthew Leigh, Debajyoti Sengupta, Guillaume Qu\'etant, John Andrew Raine, Knut Zoch, and Tobias Golling(参考訳) 本稿では,PC-JeDiと呼ばれる高エネルギー物理学においてジェットを効率よく生成する手法を提案する。 本手法は, 変圧器と組み合わさったスコアベース拡散モデルを利用して, ジェットを粒子雲として生成する作業に適している。 PC-JeDiは、発生したジェットの質を評価するいくつかの指標にわたる現在の最先端手法との競合性能を達成する。 他のモデルよりも遅いが、拡散モデルに必要な多くの前方通過のため、従来の詳細なシミュレーションよりもかなり高速である。 さらに、PC-JeDiは条件生成を用いて、2つの異なる粒子、トップクォークとグルーオンに対して所望の質量と横運動量を持つジェットを生成する。

In this paper, we present a new method to efficiently generate jets in High Energy Physics called PC-JeDi. This method utilises score-based diffusion models in conjunction with transformers which are well suited to the task of generating jets as particle clouds due to their permutation equivariance. PC-JeDi achieves competitive performance with current state-of-the-art methods across several metrics that evaluate the quality of the generated jets. Although slower than other models, due to the large number of forward passes required by diffusion models, it is still substantially faster than traditional detailed simulation. Furthermore, PC-JeDi uses conditional generation to produce jets with a desired mass and transverse momentum for two different particles, top quarks and gluons.
翻訳日:2024-02-22 21:32:27 公開日:2024-02-21
# 会話言語モデルとプロンプト工学を用いた研究論文からの正確な資料データの抽出

Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering ( http://arxiv.org/abs/2303.05352v3 )

ライセンス: Link先を確認
Maciej P. Polak, Dane Morgan(参考訳) 研究論文から手作業によるデータ抽出を,自然言語処理や言語モデル,最近では大規模言語モデル(LLM)に基づく自動データ抽出に置き換える努力が増えている。 これらの手法は大量の研究論文から効率的なデータ抽出を可能にするが、事前の努力、専門知識、コーディングが必要となる。 そこで本研究では,会話型LLMを用いて,最小限の初期作業とバックグラウンドで高精度なデータ抽出を完全自動化するChatExtract法を提案する。 chatextractは会話型llmに適用され、文章をデータで識別し、そのデータを抽出し、一連のフォローアップ質問を通じてデータの正確性を保証する。 これらのフォローアップ質問は、事実的不正確な応答を提供するLLMの既知の問題を大幅に克服した。 chatextractは任意の会話llmに適用でき、非常に高品質なデータ抽出ができる。 材料データに対するテストでは、ChatGPT-4のような最高の会話型LLMの精度とリコールの精度が90%近い。 本稿では,会話モデルにおける情報保持と,目的的冗長性と,フォローアッププロンプトによる不確実性の導入により,例外的な性能が実現できることを実証する。 これらの結果は、その単純さ、転送性、正確性のため、chatextractに似たアプローチが、近い将来、データ抽出のための強力なツールになる可能性が高いことを示唆している。 最後に, 金属ガラスの臨界冷却速度と高エントロピー合金の降伏強度に関するデータベースをchatextractを用いて開発した。

There has been a growing effort to replace manual extraction of data from research papers with automated data extraction based on natural language processing, language models, and recently, large language models (LLMs). Although these methods enable efficient extraction of data from large sets of research papers, they require a significant amount of up-front effort, expertise, and coding. In this work we propose the ChatExtract method that can fully automate very accurate data extraction with minimal initial effort and background, using an advanced conversational LLM. ChatExtract consists of a set of engineered prompts applied to a conversational LLM that both identify sentences with data, extract that data, and assure the data's correctness through a series of follow-up questions. These follow-up questions largely overcome known issues with LLMs providing factually inaccurate responses. ChatExtract can be applied with any conversational LLMs and yields very high quality data extraction. In tests on materials data we find precision and recall both close to 90% from the best conversational LLMs, like ChatGPT-4. We demonstrate that the exceptional performance is enabled by the information retention in a conversational model combined with purposeful redundancy and introducing uncertainty through follow-up prompts. These results suggest that approaches similar to ChatExtract, due to their simplicity, transferability, and accuracy are likely to become powerful tools for data extraction in the near future. Finally, databases for critical cooling rates of metallic glasses and yield strengths of high entropy alloys are developed using ChatExtract.
翻訳日:2024-02-22 21:32:12 公開日:2024-02-21
# Tsanet: 教師なしビデオオブジェクトセグメンテーションのための時間とスケールアライメント

Tsanet: Temporal and Scale Alignment for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2303.04376v2 )

ライセンス: Link先を確認
Seunghoon Lee, Suhwan Cho, Dogyoon Lee, Minhyeok Lee, Sangyoun Lee(参考訳) Unsupervised Video Object Segmentation (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。 近年,UVOSに対する2つのアプローチが議論されており,それぞれに制限がある外見と外見に基づく方法の2つに分けることができる。 ランダムにペアリングされたフレーム間の相関情報を利用するため、外観に基づく手法は対象物体の動きを考慮しない。 出現運動に基づく手法は, 運動の出現を緩和するため, 光流依存性が支配的であるという限界がある。 本稿では,上記の2つのアプローチの制約に,時間とスケールの両面から対処できるUVOSの新しいフレームワークを提案する。 時間アライメントフュージョンは、隣接するフレームのサリエンシ情報を目標フレームと整列させ、隣接するフレームの情報を活用する。 スケールアライメントデコーダは、暗黙的ニューラルネットワーク表現による連続マッピングを通じて、マルチスケール特徴マップを集約することにより、ターゲットオブジェクトマスクを予測する。 DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。 DAVIS 2016では,最先端の手法よりも優れています。

Unsupervised Video Object Segmentation (UVOS) refers to the challenging task of segmenting the prominent object in videos without manual guidance. In recent works, two approaches for UVOS have been discussed that can be divided into: appearance and appearance-motion-based methods, which have limitations respectively. Appearance-based methods do not consider the motion of the target object due to exploiting the correlation information between randomly paired frames. Appearance-motion-based methods have the limitation that the dependency on optical flow is dominant due to fusing the appearance with motion. In this paper, we propose a novel framework for UVOS that can address the aforementioned limitations of the two approaches in terms of both time and scale. Temporal Alignment Fusion aligns the saliency information of adjacent frames with the target frame to leverage the information of adjacent frames. Scale Alignment Decoder predicts the target object mask by aggregating multi-scale feature maps via continuous mapping with implicit neural representation. We present experimental results on public benchmark datasets, DAVIS 2016 and FBMS, which demonstrate the effectiveness of our method. Furthermore, we outperform the state-of-the-art methods on DAVIS 2016.
翻訳日:2024-02-22 21:31:45 公開日:2024-02-21
# テキストOOD検出のための教師なしレイヤワイズスコアアグリゲーション

Unsupervised Layer-wise Score Aggregation for Textual OOD Detection ( http://arxiv.org/abs/2302.09852v3 )

ライセンス: Link先を確認
Maxime Darrin, Guillaume Staerman, Eduardo Dadalto C\^amara Gomes, Jackie CK Cheung, Pablo Piantanida, Pierre Colombo(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、AIベースのシステムの増加によって、新たな堅牢性とセキュリティ要件によって急速に成長する分野である。 既存のOODテキスト検出器は、しばしばエンコーダの最後の層の埋め込み出力に計算された異常スコア(例えば、マハラノビス距離)に依存する。 本研究では,OOD検出性能がタスクやレイヤの出力によって大きく異なることを観察する。 さらに重要なことは、通常の選択(最後のレイヤ)がOOD検出に最適であることは滅多になく、最高のレイヤを選択したらはるかに良い結果が得られます。 そこで本研究では,データ駆動型非教師なし手法を提案する。 さらに,より現実的な設定を反映するクラス数(最大77まで)の分類タスクを含めることで,古典的テキスト型oodベンチマークを拡張する。 本ベンチマークでは,提案手法が手動の特徴選択を完全に除去しつつ,頑健で一貫した結果が得られることを示す。 彼らのパフォーマンスはoracleの最高のレイヤパフォーマンスに近い。

Out-of-distribution (OOD) detection is a rapidly growing field due to new robustness and security requirements driven by an increased number of AI-based systems. Existing OOD textual detectors often rely on an anomaly score (e.g., Mahalanobis distance) computed on the embedding output of the last layer of the encoder. In this work, we observe that OOD detection performance varies greatly depending on the task and layer output. More importantly, we show that the usual choice (the last layer) is rarely the best one for OOD detection and that far better results could be achieved if the best layer were picked. To leverage this observation, we propose a data-driven, unsupervised method to combine layer-wise anomaly scores. In addition, we extend classical textual OOD benchmarks by including classification tasks with a greater number of classes (up to 77), which reflects more realistic settings. On this augmented benchmark, we show that the proposed post-aggregation methods achieve robust and consistent results while removing manual feature selection altogether. Their performance achieves near oracle's best layer performance.
翻訳日:2024-02-22 21:31:24 公開日:2024-02-21
# ポートグラフと量子回路に対する部分グラフ同型問題

The Subgraph Isomorphism Problem for Port Graphs and Quantum Circuits ( http://arxiv.org/abs/2302.06717v2 )

ライセンス: Link先を確認
Luca Mondada and Pablo Andr\'es-Mart\'inez(参考訳) 我々は,量子コンピューティングコミュニティに高い関心を持つ部分グラフ同型問題(subgraph isomorphism problem)の変種について検討する。 この結果から,パターン数とは独立に,多数のパターンを同時に量子回路でパターンマッチングを行うアルゴリズムが得られた。 パターンを決定木にコンパイルした事前計算ステップの後、実行時間は入力量子回路のサイズで線形となる。 より一般に、接続されたポートグラフを考えると、すべてのエッジ$e$インシデントから$v$へのラベル$l_v(e)$は$v$である。 Jiang と Bunke は、そのようなグラフに対する部分グラフ同型問題 $H \subseteq G$ は時間$O(|V(G)| \cdot |V(H)|)$ で解けることを示した。 さらに, グラフが有向非巡回であれば, 部分グラフ同型問題は非有界数のパターンに対して同時に解くことができることを示した。 O(P)^{P+3/2} \cdot |V(G)| + O(m)$, ここで$P$は最大のパターンの頂点の数である。 量子回路の場合、パターンの最大数$N$とdeep $\delta$の項で得られる境界を表現することができる:$O(N)^{N + 1/2} \cdot \delta \log \delta \cdot |V(G)| + O(m)$。

We study a variant of the subgraph isomorphism problem that is of high interest to the quantum computing community. Our results give an algorithm to perform pattern matching in quantum circuits for many patterns simultaneously, independently of the number of patterns. After a pre-computation step in which the patterns are compiled into a decision tree, the running time is linear in the size of the input quantum circuit. More generally, we consider connected port graphs, in which every edge $e$ incident to $v$ has a label $L_v(e)$ unique in $v$. Jiang and Bunke showed that the subgraph isomorphism problem $H \subseteq G$ for such graphs can be solved in time $O(|V(G)| \cdot |V(H)|)$. We show that if in addition the graphs are directed acyclic, then the subgraph isomorphism problem can be solved for an unbounded number of patterns simultaneously. We enumerate all $m$ pattern matches in time $O(P)^{P+3/2} \cdot |V(G)| + O(m)$, where $P$ is the number of vertices of the largest pattern. In the case of quantum circuits, we can express the bound obtained in terms of the maximum number of qubits $N$ and depth $\delta$ of the patterns : $O(N)^{N + 1/2} \cdot \delta \log \delta \cdot |V(G)| + O(m)$.
翻訳日:2024-02-22 21:31:04 公開日:2024-02-21
# 自律移動制御のための学習に基づくオンライン最適化

Learning-based Online Optimization for Autonomous Mobility-on-Demand Fleet Control ( http://arxiv.org/abs/2302.03963v2 )

ライセンス: Link先を確認
Kai Jungel, Axel Parmentier, Maximilian Schiffer, Thibaut Vidal(参考訳) 自律型モビリティ・オン・デマンドシステムは、都市部における車両の量の増加や交通関連汚染など、多くの交通関連外部性を緩和する手段として、有効な選択肢である。 しかし、これらのシステムの成功は、効率的かつ効果的な艦隊統制戦略に大きく依存している。 本研究では,自律移動オンデマンドシステムのためのオンライン制御アルゴリズムについて検討し,最適全情報ソリューションからオンラインディスパッチとリバランスポリシを学習するハイブリッド組合せ最適化強化機械学習パイプラインを開発した。 我々は,車両群の大きさや要求密度の異なる大規模実世界のシナリオで,ハイブリッドパイプラインをテストする。 提案手法は, 様々なKPI(例えば, 最大17.1%, 平均6.3%)に対して, 最先端の欲求とモデル予測制御のアプローチより優れていることを示す。

Autonomous mobility-on-demand systems are a viable alternative to mitigate many transportation-related externalities in cities, such as rising vehicle volumes in urban areas and transportation-related pollution. However, the success of these systems heavily depends on efficient and effective fleet control strategies. In this context, we study online control algorithms for autonomous mobility-on-demand systems and develop a novel hybrid combinatorial optimization enriched machine learning pipeline which learns online dispatching and rebalancing policies from optimal full-information solutions. We test our hybrid pipeline on large-scale real-world scenarios with different vehicle fleet sizes and various request densities. We show that our approach outperforms state-of-the-art greedy, and model-predictive control approaches with respect to various KPIs, e.g., by up to 17.1% and on average by 6.3% in terms of realized profit.
翻訳日:2024-02-22 21:30:30 公開日:2024-02-21
# カーネルSum-Of-Squareによる制約付き最適化問題の近似

Approximation of optimization problems with constraints through kernel Sum-Of-Squares ( http://arxiv.org/abs/2301.06339v2 )

ライセンス: Link先を確認
Pierre-Cyril Aubin-Frankowski and Alessandro Rudi(参考訳) 無限次元空間における無限個の不等式制約を扱うことは、大域的最適化から最適輸送まで多くの分野において起こる。 これらの問題は、カーネル Sum-Of-Squares (kSoS) 近似を通じて、いくつかの以前の記事で個別に解決されている。 ここでは、これらのスキームに対する収束保証を証明する統一定理を提案する。 点的不等式は非負の kSoS 函数のクラス内で等式となる。 さらに、問題に現れる関数が滑らかであることを仮定し、ポイントワイドな等式制約に焦点をあてることで、制約をサンプリングする次元性の呪いを軽減することができる。 本手法は,側面情報を持つベクトル場を学習する場合に,集合の不変性を示す。

Handling an infinite number of inequality constraints in infinite-dimensional spaces occurs in many fields, from global optimization to optimal transport. These problems have been tackled individually in several previous articles through kernel Sum-Of-Squares (kSoS) approximations. We propose here a unified theorem to prove convergence guarantees for these schemes. Pointwise inequalities are turned into equalities within a class of nonnegative kSoS functions. Assuming further that the functions appearing in the problem are smooth, focusing on pointwise equality constraints enables the use of scattering inequalities to mitigate the curse of dimensionality in sampling the constraints. Our approach is illustrated in learning vector fields with side information, here the invariance of a set.
翻訳日:2024-02-22 21:30:12 公開日:2024-02-21
# InPars-Light:効率的なランク付けの非教師なしトレーニング

InPars-Light: Cost-Effective Unsupervised Training of Efficient Rankers ( http://arxiv.org/abs/2301.02998v2 )

ライセンス: Link先を確認
Leonid Boytsov, Preksha Patel, Vivek Sourabh, Riddhi Nisar, Sayani Kundu, Ramya Ramanathan, Eric Nyberg(参考訳) 神経ランチャーの教師なし訓練法であるinparsの再現性検討を行った(bonifacio et al., 2022)。 副産物として,InPars-lightを開発した。 InParsと異なり、InPars-lightは7x-100倍小さいランキングモデルを使用し、自由な言語モデルBLOOMしか使用していません。 元のInPars研究で使用した5つの英語検索コレクションについて, BM25(nDCGおよびMRR)に対して, 30Mパラメータの6層MiniLM-30Mロータと1つの3ショットプロンプトのみを用い, 統計的に有意な改善が得られた。 対照的に、InParsの研究では、100倍のMonoT5-3BモデルがBM25を一貫して上回り、より小さなMonoT5-220Mモデル(MiniLMランキングの7倍も大きい)は、MS MARCOとTREC DL 2020でのみBM25を上回りました。 同じ3ショットプロンプトシナリオでは、435mのパラメータであるdeberta v3rankerは、monot5-3bの7倍(平均で1.3対1.32のbm25を超える)と同等でした。 最終的にこれらの良い成果は、ボニファシオら(2022年)が使用した1000に比較して、わずか100の候補文書を再分類することで達成された。 InPars-lightは、BM25を上回るニューラルネットワークランキングモデルをトレーニングし、デプロイするための、真に費用効果の高いプロンプトベースの教師なしのレシピであると考えています。 私たちのコードとデータは公開されています。 https://github.com/searchivarius/inpars_light/

We carried out a reproducibility study of InPars, which is a method for unsupervised training of neural rankers (Bonifacio et al., 2022). As a by-product, we developed InPars-light, which is a simple-yet-effective modification of InPars. Unlike InPars, InPars-light uses 7x-100x smaller ranking models and only a freely available language model BLOOM, which -- as we found out -- produced more accurate rankers compared to a proprietary GPT-3 model. On all five English retrieval collections (used in the original InPars study) we obtained substantial (7%-30%) and statistically significant improvements over BM25 (in nDCG and MRR) using only a 30M parameter six-layer MiniLM-30M ranker and a single three-shot prompt. In contrast, in the InPars study only a 100x larger monoT5-3B model consistently outperformed BM25, whereas their smaller monoT5-220M model (which is still 7x larger than our MiniLM ranker) outperformed BM25 only on MS MARCO and TREC DL 2020. In the same three-shot prompting scenario, our 435M parameter DeBERTA v3 ranker was at par with the 7x larger monoT5-3B (average gain over BM25 of 1.3 vs 1.32): In fact, on three out of five datasets, DeBERTA slightly outperformed monoT5-3B. Finally, these good results were achieved by re-ranking only 100 candidate documents compared to 1000 used by Bonifacio et al. (2022). We believe that InPars-light is the first truly cost-effective prompt-based unsupervised recipe to train and deploy neural ranking models that outperform BM25. Our code and data is publicly available. https://github.com/searchivarius/inpars_light/
翻訳日:2024-02-22 21:29:58 公開日:2024-02-21
# 回転平衡(Rotational Equilibrium) - ニューラルネットワーク間の学習バランスの低下

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks ( http://arxiv.org/abs/2305.17212v3 )

ライセンス: Link先を確認
Atli Kosson, Bettina Messmer, Martin Jaggi(参考訳) 本研究では, 応用解析と実験を組み合わせることで, 深部ニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討した。 軽量崩壊は、ニューロンの重みベクトルの期待される大きさと角の更新を、回転平衡と呼ばれる定常状態に収束させる。 これらの状態は高度に均一であり、異なる層やニューロン間で平均回転(効果的な学習速度のプロキシ)を効果的にバランスさせることができる。 私たちの研究は、adam、lion、sgdといったオプティマイザ間のダイナミクスを勢いで分析し、ディープラーニングにおける広く使われているが理解できない方法の有効性を解明する、トレーニングに関する新たなシンプルな視点を提供します。 本稿では,L2-正則化を施したAdamWとAdamWの両法則化の有効性において,バランスの取れた回転が重要な役割を担っていることを示す。 最後に, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習速度のウォームアップを著しく低減できることを示した。

This study investigates how weight decay affects the update behavior of individual neurons in deep neural networks through a combination of applied analysis and experimentation. Weight decay can cause the expected magnitude and angular updates of a neuron's weight vector to converge to a steady state we call rotational equilibrium. These states can be highly homogeneous, effectively balancing the average rotation -- a proxy for the effective learning rate -- across different layers and neurons. Our work analyzes these dynamics across optimizers like Adam, Lion, and SGD with momentum, offering a new simple perspective on training that elucidates the efficacy of widely used but poorly understood methods in deep learning. We demonstrate how balanced rotation plays a key role in the effectiveness of normalization like Weight Standardization, as well as that of AdamW over Adam with L2-regularization. Finally, we show that explicitly controlling the rotation provides the benefits of weight decay while substantially reducing the need for learning rate warmup.
翻訳日:2024-02-22 21:21:57 公開日:2024-02-21
# sin3dm: 単一の3次元テクスチャ形状から拡散モデルを学ぶ

Sin3DM: Learning a Diffusion Model from a Single 3D Textured Shape ( http://arxiv.org/abs/2305.15399v2 )

ライセンス: Link先を確認
Rundi Wu, Ruoshi Liu, Carl Vondrick, Changxi Zheng(参考訳) 入力例に似た新しい3Dモデルを合成することは、グラフィックアーティストや機械学習研究者によって長い間追求されてきた。 本稿では,単一の3次元テクスチャ形状から内部パッチ分布を学習し,微細な形状とテクスチャ詳細を備えた高品質なバリエーションを生成する拡散モデルであるsin3dmを提案する。 拡散モデルを3Dで直接訓練すると、大きなメモリと計算コストが生じる。 したがって、まず入力を低次元の潜在空間に圧縮し、次に拡散モデルを訓練する。 具体的には、入力された3次元テクスチャ形状を、入力の符号付き距離とテクスチャフィールドを表す三面体特徴マップに符号化する。 拡散モデルのデノージングネットワークは、オーバーフィッティングを避けるために限られた受容場を有し、三面体対応の2d畳み込みブロックを用いて結果品質を向上させる。 ランダムに新しいサンプルを生成するだけでなく、リターゲティング、アウトペインティング、ローカル編集などの応用も促進する。 定性的,定量的な評価により,本手法は3次元形状の生成品質において先行手法よりも優れていることを示す。

Synthesizing novel 3D models that resemble the input example has long been pursued by graphics artists and machine learning researchers. In this paper, we present Sin3DM, a diffusion model that learns the internal patch distribution from a single 3D textured shape and generates high-quality variations with fine geometry and texture details. Training a diffusion model directly in 3D would induce large memory and computational cost. Therefore, we first compress the input into a lower-dimensional latent space and then train a diffusion model on it. Specifically, we encode the input 3D textured shape into triplane feature maps that represent the signed distance and texture fields of the input. The denoising network of our diffusion model has a limited receptive field to avoid overfitting, and uses triplane-aware 2D convolution blocks to improve the result quality. Aside from randomly generating new samples, our model also facilitates applications such as retargeting, outpainting and local editing. Through extensive qualitative and quantitative evaluation, we show that our method outperforms prior methods in generation quality of 3D shapes.
翻訳日:2024-02-22 21:21:36 公開日:2024-02-21
# 電子サブバスの存在下での2レベルフラクタの雑音スペクトルの一般化モデル

A generalized model of the noise spectrum of a two-level fluctuator in the presence of an electron subbath ( http://arxiv.org/abs/2305.14348v2 )

ライセンス: Link先を確認
Robert E. Throckmorton and S. Das Sarma(参考訳) ahnの仕事は、フル電子浴のサブ領域とのみ相互作用し、ゆらぎ温度を受ける場合において、2レベルフラクタ(tlf)のノイズパワースペクトルを導出する。 しかし、Eq。 ~(1)は、熱容量の点でサブバス温度のばらつきを与えるが、この仕事において、このサブバスの熱容量は一定であり、高温では良い近似であるが、低い温度では分解する、という暗黙の仮定を持つ。 したがって、この研究は、2次元電子ガス(2DEG)$C_V\propto T$の電子熱容量が温度の一定ではなく完全に考慮される場合にまで拡張される。 低温では、s(\omega)\propto e^{-c/t^{3/8}}$というノイズのパワースペクトルは、s(\omega)\propto e^{-c'/t^{1/3}}$とは対照的であり、ここでは$c$と$c'$が定数である。 また, 2 つのモデルから得られる数値結果を比較し, s(\omega)$ の値が ahn の値と低温で数桁異なることが分かった。

The work of Ahn derives the noise power spectrum of a two-level fluctuator (TLF) in the case that it interacts only with a subregion of a full electron bath and thus is subject to a fluctuating temperature. However, Eq.~(1), which gives the variance of the subbath temperature in terms of the heat capacity, in that work carries the implicit assumption that the heat capacity of this subbath may be taken to be a constant, which is a good approximation at higher temperatures, but breaks down at lower temperatures. We thus extend this work to the case in which the fact that the electronic heat capacity of a two-dimensional electron gas (2DEG) $C_V\propto T$, rather than constant in temperature, is fully taken into account. We show that, at low temperatures, the resulting power spectrum of the noise $S(\omega)\propto e^{-C/T^{3/8}}$, in contrast to $S(\omega)\propto e^{-C'/T^{1/3}}$ as found previously, where $C$ and $C'$ are constants. We also compare the numerical results that one would obtain from the two models and find that our results for $S(\omega)$ can differ from those of Ahn by several orders of magnitude at low temperatures.
翻訳日:2024-02-22 21:20:49 公開日:2024-02-21
# Chain-of-Knowledge:異種源に適応した動的知識による大規模言語モデルの構築

Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous Sources ( http://arxiv.org/abs/2305.13269v4 )

ライセンス: Link先を確認
Xingxuan Li, Ruochen Zhao, Yew Ken Chia, Bosheng Ding, Shafiq Joty, Soujanya Poria, Lidong Bing(参考訳) 本稿では,異種情報源からの接地情報を動的に取り込み,大規模言語モデル(llm)を強化する新しいフレームワークであるchain-of-knowledge(cok)を提案する。 結果として、より事実的合理性と、世代における幻覚を減少させる。 特に、CoKは推論準備、動的知識適応、解答統合の3段階からなる。 知識集約的な質問が与えられた後、CoKはまず、関連する知識ドメインを特定しながら、いくつかの予備的な論理と答えを準備します。 サンプルからの回答に多数意見の一致がなければ、cokは特定されたドメインからの知識を段階的に修正する。 これらの補正された合理性は、最終的な回答統合のより良い基盤となることができる。 主に非構造化データを使用する先行研究とは異なり、cokはウィキデータやテーブルのような構造化された知識ソースを活用して、より信頼性の高い事実情報を提供する。 動的知識適応段階において,構造化されていない知識ソースと構造化された知識ソースの両方にアクセスするために,sparqlやsql,自然文など,さまざまなクエリ言語に対するクエリ生成を可能にする適応型クエリ生成器を提案する。 さらに、合理的な間の誤りの伝播を最小限に抑えるため、cokは前回の補正された合理法を用いて徐々に合理性を補正し、後続の合理性を生成し補正する。 大規模な実験により、CoKは異なる領域にわたる知識集約タスクにおけるLLMの性能を一貫して改善することが示された。

We present chain-of-knowledge (CoK), a novel framework that augments large language models (LLMs) by dynamically incorporating grounding information from heterogeneous sources. It results in more factual rationales and reduced hallucination in generation. Specifically, CoK consists of three stages: reasoning preparation, dynamic knowledge adapting, and answer consolidation. Given a knowledge-intensive question, CoK first prepares several preliminary rationales and answers while identifying the relevant knowledge domains. If there is no majority consensus among the answers from samples, CoK corrects the rationales step by step by adapting knowledge from the identified domains. These corrected rationales can plausibly serve as a better foundation for the final answer consolidation. Unlike prior studies that primarily use unstructured data, CoK also leverages structured knowledge sources such as Wikidata and tables that provide more reliable factual information. To access both unstructured and structured knowledge sources in the dynamic knowledge adapting stage, we propose an adaptive query generator that allows the generation of queries for various types of query languages, including SPARQL, SQL, and natural sentences. Moreover, to minimize error propagation between rationales, CoK corrects the rationales progressively using preceding corrected rationales to generate and correct subsequent rationales. Extensive experiments show that CoK consistently improves the performance of LLMs on knowledge-intensive tasks across different domains.
翻訳日:2024-02-22 21:20:21 公開日:2024-02-21
# CRITIC: ツール・インタラクティブ・クオリティクスによる大規模言語モデルの自動修正

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing ( http://arxiv.org/abs/2305.11738v4 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデル(LLM)の最近の発展は印象的だ。 しかしながら、これらのモデルは、幻覚的な事実、欠陥コードの生成、攻撃的で有害なコンテンツの作成など、矛盾や問題のある振る舞いを示すこともある。 これらのモデルとは異なり、人間は通常、外部ツールを使用して、ファクトチェックの検索エンジンやデバッグのコードインタプリタなど、初期コンテンツをクロスチェックし、洗練する。 この観察にインスパイアされたCRITICと呼ばれるフレームワークは、基本的には「ブラックボックス」であり、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と段階的な修正を可能にする。 具体的には、初期出力から始めると、CRITICはテキストの特定の側面を評価するための適切なツールと対話し、この検証プロセスで得られたフィードバックに基づいて出力を更新する。 自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを示す。 一方,本研究は,LLMの自己改善を促進する上で,外部からのフィードバックの重要性を強調している。

Recent developments in large language models (LLMs) have been impressive. However, these models sometimes show inconsistencies and problematic behavior, such as hallucinating facts, generating flawed code, or creating offensive and toxic content. Unlike these models, humans typically utilize external tools to cross-check and refine their initial content, like using a search engine for fact-checking, or a code interpreter for debugging. Inspired by this observation, we introduce a framework called CRITIC that allows LLMs, which are essentially "black boxes" to validate and progressively amend their own outputs in a manner similar to human interaction with tools. More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process. Comprehensive evaluations involving free-form question answering, mathematical program synthesis, and toxicity reduction demonstrate that CRITIC consistently enhances the performance of LLMs. Meanwhile, our research highlights the crucial importance of external feedback in promoting the ongoing self-improvement of LLMs.
翻訳日:2024-02-22 21:19:45 公開日:2024-02-21
# InstructIE:バイリンガルインストラクションに基づく情報抽出データセット

InstructIE: A Bilingual Instruction-based Information Extraction Dataset ( http://arxiv.org/abs/2305.11527v2 )

ライセンス: Link先を確認
Honghao Gui, Shuofei Qiao, Jintian Zhang, Hongbin Ye, Mengshu Sun, Lei Liang, Huajun Chen, Ningyu Zhang(参考訳) 従来の情報抽出(IE)手法は、定義済みのクラスや静的な訓練パラダイムによって制約され、特に動的世界では適応性が低下することが多い。 本稿では,このギャップを埋めるために,Large Language Models (LLMs) のタスク間一般化機能を活用した命令ベースのIEパラダイムを提案する。 既存のIEデータセットの多くはラベルセットに過剰に冗長である傾向にあり、命令を構成する際に直接関連しない多数のラベルが含まれているのを観察する。 そこで本研究では,2言語対応のテーマ中心型ie命令データセット(中国語と英語)を初めて導入し,ラベル構造を効果的に単純化するテーマスキーム設計を取り入れた。 さらに,このようなデータセットの自動生成に特化して設計された,KG2インストラクションという革新的なフレームワークを開発した。 InstructIEに基づく実験的評価では、現在のモデルはインストラクションベースのIEタスクで有望であるが、潜在的な最適化の機会も現れる。 データセットはhttps://huggingface.co/datasets/zjunlp/instructieで利用可能である。

Traditional information extraction (IE) methodologies, constrained by pre-defined classes and static training paradigms, often falter in adaptability, especially in the dynamic world. To bridge this gap, we explore an instruction-based IE paradigm in this paper, leveraging the substantial cross-task generalization capabilities of Large Language Models (LLMs). We observe that most existing IE datasets tend to be overly redundant in their label sets, which leads to the inclusion of numerous labels not directly relevant to the extraction content when constructing instructions. To tackle this issue, we introduce a bilingual theme-centric IE instruction dataset (Chinese and English), InstructIE, and for the first time, incorporate a theme scheme design that effectively simplifies the label structure. Furthermore, we develop an innovative framework named KG2Instruction, which is specifically designed for the automatic generation of such datasets. Experimental evaluations based on InstructIE reveal that while current models show promise in Instruction-based IE tasks, opportunities for their potential optimization also emerge. The dataset is available at https://huggingface.co/datasets/zjunlp/InstructIE.
翻訳日:2024-02-22 21:19:25 公開日:2024-02-21
# 事前計算による量子アルゴリズムの高速化

Accelerating Quantum Algorithms with Precomputation ( http://arxiv.org/abs/2305.09638v3 )

ライセンス: Link先を確認
William J. Huggins, Jarrod R. McClean(参考訳) 実世界のコンピューティング応用は極めて時間に敏感である。 事前の作業を行うことで、こうしたタスクを加速させることができれば、価値があるでしょう。 そこで本研究では,アルゴリズムへの入力が完全に指定される前の多項式量である「自由」計算に対して,量子プリ計算が可能な量子アルゴリズムのコストモデルと,それを利用する方法を提案する。 このコストモデルを実装するのに標準モデルよりも漸近的に効率的であるユニタリの2つのファミリーを分析した。 密度行列指数に基づく量子事前計算の最初の例は、ある条件下で指数的な優位性を与える。 第2の例はゲートテレポーテーションの変種を使用して、ユニタリを直接実装した場合と比較して二次的な利点を達成する。 これらの例は、量子事前計算が量子優位を求める新しいアリーナを提供する可能性を示唆している。

Real-world applications of computing can be extremely time-sensitive. It would be valuable if we could accelerate such tasks by performing some of the work ahead of time. Motivated by this, we propose a cost model for quantum algorithms that allows quantum precomputation, i.e., for a polynomial amount of "free" computation before the input to an algorithm is fully specified, and methods for taking advantage of it. We analyze two families of unitaries that are asymptotically more efficient to implement in this cost model than in the standard one. The first example of quantum precomputation, based on density matrix exponentiation, could offer an exponential advantage under certain conditions. The second example uses a variant of gate teleportation to achieve a quadratic advantage when compared with implementing the unitaries directly. These examples hint that quantum precomputation may offer a new arena in which to seek quantum advantage.
翻訳日:2024-02-22 21:18:48 公開日:2024-02-21
# TESS: テキストからテキストへの自己定義型Simplex拡散

TESS: Text-to-Text Self-Conditioned Simplex Diffusion ( http://arxiv.org/abs/2305.08379v2 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, Hamish Ivison, Jaesung Tae, James Henderson, Iz Beltagy, Matthew E. Peters, Arman Cohan(参考訳) 拡散モデルは生成の強力なパラダイムとして登場し、様々な連続した領域で強い性能を得る。 しかし、自然言語への連続拡散モデルの適用は、その離散的性質とテキストを生成するために大量の拡散ステップを必要とするため、依然として困難であり、拡散ベースの生成は高価である。 本研究では,完全自己回帰的でないテキスト拡散モデルであるText-to-text Self-conditioned Simplex Diffusion (TESS)を提案する。 要約,テキスト簡易化,パラフレーズ生成,質問生成など,自然言語理解と生成タスクに関する広範な実験を通じて,tessが最先端の非自己回帰モデルよりも優れており,性能の低下を最小限に抑えるための拡散ステップが少なく,事前学習された自己回帰シーケンス対シーケンスモデルと競合することを実証する。 コードベースはhttps://github.com/allenai/tess-diffusionで公開しています。

Diffusion models have emerged as a powerful paradigm for generation, obtaining strong performance in various continuous domains. However, applying continuous diffusion models to natural language remains challenging due to its discrete nature and the need for a large number of diffusion steps to generate text, making diffusion-based generation expensive. In this work, we propose Text-to-text Self-conditioned Simplex Diffusion (TESS), a text diffusion model that is fully non-autoregressive, employs a new form of self-conditioning, and applies the diffusion process on the logit simplex space rather than the learned embedding space. Through extensive experiments on natural language understanding and generation tasks including summarization, text simplification, paraphrase generation, and question generation, we demonstrate that TESS outperforms state-of-the-art non-autoregressive models, requires fewer diffusion steps with minimal drop in performance, and is competitive with pretrained autoregressive sequence-to-sequence models. We publicly release our codebase at https://github.com/allenai/tess-diffusion.
翻訳日:2024-02-22 21:18:33 公開日:2024-02-21
# Rydberg-dressedatomによるハドロン状態の量子シミュレーション

Quantum simulation of hadronic states with Rydberg-dressed atoms ( http://arxiv.org/abs/2304.12623v2 )

ライセンス: Link先を確認
Zihan Wang, Feiyang Wang, Joseph Vovrosh, Johannes Knolle, Florian Mintert and Rick Mukherjee(参考訳) 閉じ込め現象は高エネルギー物理学でよく知られており、一次元量子スピン鎖の低エネルギー領域壁励起に対しても実現可能である。 2つのドメイン壁からなるバウンド状態は中間子のように振る舞うことができ、最近のvovrosh et alの作品ではそうである。 [PRX Quantum 3, 040309 (2022)], 一対の中間子がハドロン状態に類似したメタ安定閉じ込め誘起境界状態(4つのドメイン壁からなる)を動的に形成できることが実証された。 しかし、このプロトコルはVovroshらで議論された。 [prx量子3,040309 (2022)] 特性的に非単調な距離依存性を持つ相互作用の使用は、自然界では容易ではないため、実験的な実現への挑戦となる。 この点において、リドバーグ原子は閉じ込め関連物理学をシミュレートするために必要なプラットフォームを提供することができる。 一次元の逆場イジングモデルに対するスピン-スピン相互作用を工学するために、Rydberg-dressed 原子を相互作用させることによって得られる柔軟性を利用する。 我々の数値シミュレーションは、Rydberg-dressedの相互作用がハドロン生成に適する様々な有効なポテンシャルをもたらすことを示しており、現在の捕捉イオン実験の代替として、Rydbergプラットフォームによる閉じ込め物理学をシミュレートする可能性を開く。

The phenomenon of confinement is well known in high-energy physics and can also be realized for low-energy domain-wall excitations in one-dimensional quantum spin chains. A bound state consisting of two domain-walls can behave like a meson, and in a recent work of Vovrosh et al. [PRX Quantum 3, 040309 (2022)] , it was demonstrated that a pair of mesons could dynamically form a meta-stable confinement-induced bound state (consisting of four domain-walls) akin to a hadronic state. However, the protocol discussed in Vovrosh et al. [PRX Quantum 3, 040309 (2022)] involving the use of interactions with characteristically non-monotonic distance dependence is not easy to come by in nature, thus, posing a challenge for its experimental realization. In this regard, Rydberg atoms can provide the required platform for simulating confinement-related physics. We exploit the flexibility offered by interacting Rydberg-dressed atoms to engineering modified spin-spin interactions for the one-dimensional transverse field Ising model. Our numerical simulations show how Rydberg-dressed interactions can give rise to a variety of effective potentials that are suitable for hadron formation, which opens the possibility of simulating confinement physics with Rydberg platforms as a viable alternative to current trapped-ion experiments.
翻訳日:2024-02-22 21:18:11 公開日:2024-02-21
# プライバシーコンピューティングのメタバース:必要、分類、課題

Privacy Computing Meets Metaverse: Necessity, Taxonomy and Challenges ( http://arxiv.org/abs/2304.11643v2 )

ライセンス: Link先を確認
Chuan Chen, Yuecheng Li, Zhenpeng Wu, Chengyuan Mai, Youming Liu, Yanming Hu, Zibin Zheng, Jiawen Kang(参考訳) 次世代インターネットの中核であるmetaverseは、時空間的、没入的、リアルタイム、持続可能、相互運用可能、およびデータセンシティブな特性を同時に結合したコンピュータ生成ホログラフィックデジタル環境である。 仮想世界と現実世界を巧みに融合し、ユーザーは仮想形式で作成、通信、そして操作することができる。 拡張現実、仮想現実、ブロックチェーンといった新興技術の急速な発展に伴い、メタバースシステムはますます洗練され、社会、観光、産業、経済といった様々な分野で広く使われている。 しかし、現実世界との対話のレベルが高いことは、個人と企業の両方にとってプライバシー漏洩のリスクも大きく、メタバースの展開を妨げている。 そして、現在の研究ホットスポットであるメタバースの枠組みにプライバシーコンピューティング技術を適用することは避けられない。 本稿では,プライバシコンピューティングがメタバースに満たすときの必要性,分類,課題について包括的な研究を行う。 具体的には,まず,メタバースにおけるデータ利用の課題,特にデータプライバシの分析を行うメタバースの基盤となる技術と応用について紹介する。 次に,フェデレーション学習,差分プライバシ,準同型暗号化,およびメタバースにおける異なるプライバシ問題に対するゼロ知識証明に基づく最先端ソリューションをレビューし,要約する。 最後に、メタバース開発における現在のセキュリティとプライバシの課題を示し、確立されたプライバシー保護メタバースシステムを構築するためのオープンな方向性を提供する。 アクセスと参照を簡単にするため、関連する出版物とそのコードをgithubリポジトリに統合します。

Metaverse, the core of the next-generation Internet, is a computer-generated holographic digital environment that simultaneously combines spatio-temporal, immersive, real-time, sustainable, interoperable, and data-sensitive characteristics. It cleverly blends the virtual and real worlds, allowing users to create, communicate, and transact in virtual form. With the rapid development of emerging technologies including augmented reality, virtual reality and blockchain, the metaverse system is becoming more and more sophisticated and widely used in various fields such as social, tourism, industry and economy. However, the high level of interaction with the real world also means a huge risk of privacy leakage both for individuals and enterprises, which has hindered the wide deployment of metaverse. Then, it is inevitable to apply privacy computing techniques in the framework of metaverse, which is a current research hotspot. In this paper, we conduct comprehensive research on the necessity, taxonomy and challenges when privacy computing meets metaverse. Specifically, we first introduce the underlying technologies and various applications of metaverse, on which we analyze the challenges of data usage in metaverse, especially data privacy. Next, we review and summarize state-of-the-art solutions based on federated learning, differential privacy, homomorphic encryption, and zero-knowledge proofs for different privacy problems in metaverse. Finally, we show the current security and privacy challenges in the development of metaverse and provide open directions for building a well-established privacy-preserving metaverse system. For easy access and reference, we integrate the related publications and their codes into a GitHub repository: https://github.com/6lyc/Awesome-Privacy-Computing-in-Metaverse.git.
翻訳日:2024-02-22 21:17:46 公開日:2024-02-21
# ドローンの安全な目標航法のためのマルチプルスーツ回避学習

Learning Multi-Pursuit Evasion for Safe Targeted Navigation of Drones ( http://arxiv.org/abs/2304.03443v2 )

ライセンス: Link先を確認
Jiaping Xiao and Mir Feroskhan(参考訳) 複数の追跡者からの敵の物理的攻撃がある場合、ドローンの安全なナビゲーションは難しい課題だ。 本稿では,マルチステージ深層学習(AMS-DRL)という新しいアプローチを提案し,複数の進化した追従者の行動から学習し,その行動に迅速に適応し,ドローンが攻撃を回避し,目標に到達できるようにする。 特に、AMS-DRLは、追従回避ゲームにおいて、複数の段階において、追従者および回避者が二部グラフ方式で非同期に訓練される敵エージェントを進化させる。 ゲーム理論解析からエージェント間のナッシュ平衡を保証することにより収束を保証する。 本手法を広範囲のシミュレーションで評価し,高いナビゲーション成功率でベースラインを上回っていることを示す。 また、相対的な最大速度などのパラメータがナビゲーション性能に与える影響を分析する。 さらに, 実時間飛行における訓練方針の有効性を検証し, 実測実験を行った。 空間幾何学が航法結果にどのように影響するかを明らかにするために、成功率のヒートマップが導入された。 プロジェクトウェブサイト: https://github.com/NTU-ICG/AMS-DRL-for-Pursuit-Evasion

Safe navigation of drones in the presence of adversarial physical attacks from multiple pursuers is a challenging task. This paper proposes a novel approach, asynchronous multi-stage deep reinforcement learning (AMS-DRL), to train adversarial neural networks that can learn from the actions of multiple evolved pursuers and adapt quickly to their behavior, enabling the drone to avoid attacks and reach its target. Specifically, AMS-DRL evolves adversarial agents in a pursuit-evasion game where the pursuers and the evader are asynchronously trained in a bipartite graph way during multiple stages. Our approach guarantees convergence by ensuring Nash equilibrium among agents from the game-theory analysis. We evaluate our method in extensive simulations and show that it outperforms baselines with higher navigation success rates. We also analyze how parameters such as the relative maximum speed affect navigation performance. Furthermore, we have conducted physical experiments and validated the effectiveness of the trained policies in real-time flights. A success rate heatmap is introduced to elucidate how spatial geometry influences navigation outcomes. Project website: https://github.com/NTU-ICG/AMS-DRL-for-Pursuit-Evasion.
翻訳日:2024-02-22 21:17:17 公開日:2024-02-21
# プロンプトエンジニアリングによる機械翻訳の最適化:ChatGPTのカスタマイズ性の検討

Optimizing Machine Translation through Prompt Engineering: An Investigation into ChatGPT's Customizability ( http://arxiv.org/abs/2308.01391v2 )

ライセンス: Link先を確認
Masaru Yamada(参考訳) 本稿では,翻訳の目的と対象オーディエンスを統合し,チャットgptが生成する翻訳の質にプロンプトを加える効果について検討する。 以前の翻訳研究、産業慣行、iso標準に基づき、この研究は翻訳プロセスにおける生産前の段階の重要性を強調するものである。 研究により、chatgptのような大規模言語モデルに適切なプロンプトが組み込まれれば、柔軟性のある翻訳が可能になることが明らかになった。 この研究は、特定の条件を満たす翻訳を生成するためにプロンプトを使用する場合の翻訳品質の変化を精査する。 この評価は,コサイン類似性計算にOpenAIのワード埋め込みAPIを用いることによって,主観的,質的に,実践的な翻訳者の視点から行う。 その結果、目的と対象のオーディエンスをプロンプトに統合することで、生成した翻訳を変更できることが示唆され、一般的に業界標準による翻訳品質の向上が図られる。 この研究は、特にマーケティング文書や文化的に依存したイディオムの文脈において、「良い翻訳」概念の実践的応用を実証している。

This paper explores the influence of integrating the purpose of the translation and the target audience into prompts on the quality of translations produced by ChatGPT. Drawing on previous translation studies, industry practices, and ISO standards, the research underscores the significance of the pre-production phase in the translation process. The study reveals that the inclusion of suitable prompts in large-scale language models like ChatGPT can yield flexible translations, a feat yet to be realized by conventional Machine Translation (MT). The research scrutinizes the changes in translation quality when prompts are used to generate translations that meet specific conditions. The evaluation is conducted from a practicing translator's viewpoint, both subjectively and qualitatively, supplemented by the use of OpenAI's word embedding API for cosine similarity calculations. The findings suggest that the integration of the purpose and target audience into prompts can indeed modify the generated translations, generally enhancing the translation quality by industry standards. The study also demonstrates the practical application of the "good translation" concept, particularly in the context of marketing documents and culturally dependent idioms.
翻訳日:2024-02-22 21:09:30 公開日:2024-02-21
# 均一空間上の潜在SDE

Latent SDEs on Homogeneous Spaces ( http://arxiv.org/abs/2306.16248v3 )

ライセンス: Link先を確認
Sebastian Zeng, Florian Graf, Roland Kwitt(参考訳) 確率過程が(おそらく複雑な)観測された場合、潜時確率微分方程式(SDE)の解によって支配される潜在変数モデルにおける変分ベイズ推論の問題を考察する。 効率的な勾配計算などのデータから(ほぼ任意の)潜伏神経SDEを学習しようとするときの課題に触発され、ステップバックして特定のサブクラスを研究する。 我々の場合、SDEは同次潜在空間上で進化し、対応する(行列)リー群の確率力学によって誘導される。 学習問題において、単位 n 次元球面上の SDE は、このセットアップの最も関連性の高いインカーネーションである。 特に、変分推論において、球面は真に非形式的事前の使用を容易にするだけでなく、証明の下界における近似的後続過程と先行過程の間のクルバック・リーブラー発散に対する特に単純で直感的な表現も得られる。 実験により, 提案手法の潜在sdeを, 既存の1段階幾何オイラー・マルヤマスキームを用いて効率的に学習できることを実証した。 よりリッチなSDEに制限されているにもかかわらず、様々な時系列補間/分類問題において、競争的あるいは最先端の結果を得る。

We consider the problem of variational Bayesian inference in a latent variable model where a (possibly complex) observed stochastic process is governed by the solution of a latent stochastic differential equation (SDE). Motivated by the challenges that arise when trying to learn an (almost arbitrary) latent neural SDE from data, such as efficient gradient computation, we take a step back and study a specific subclass instead. In our case, the SDE evolves on a homogeneous latent space and is induced by stochastic dynamics of the corresponding (matrix) Lie group. In learning problems, SDEs on the unit n-sphere are arguably the most relevant incarnation of this setup. Notably, for variational inference, the sphere not only facilitates using a truly uninformative prior, but we also obtain a particularly simple and intuitive expression for the Kullback-Leibler divergence between the approximate posterior and prior process in the evidence lower bound. Experiments demonstrate that a latent SDE of the proposed type can be learned efficiently by means of an existing one-step geometric Euler-Maruyama scheme. Despite restricting ourselves to a less rich class of SDEs, we achieve competitive or even state-of-the-art results on various time series interpolation/classification problems.
翻訳日:2024-02-22 21:09:08 公開日:2024-02-21
# 非平滑な目的のためのプライベートネットワークフェデレーション学習

Private Networked Federated Learning for Nonsmooth Objectives ( http://arxiv.org/abs/2306.14012v2 )

ライセンス: Link先を確認
Fran\c{c}ois Gauthier, Cristiano Gratton, Naveen K. D. Venkategowda, Stefan Werner(参考訳) 本稿では,非運動目的関数を解くネットワーク型フェデレーション学習アルゴリズムを開発した。 参加者同士の秘密性と盗聴者の可能性を保証するため,我々はゼロ集中ディファレンシャルプライバシー概念(zcdp)を用いる。 プライバシは、分散減衰ガウスノイズで各クライアントでの計算結果に摂動させることで実現される。 ZCDP は従来の $(\epsilon, \delta)$-DP よりも精度が良く、より最近の R\'enyi-DP よりも強力な保証を実現している。 提案アルゴリズムは分散乗算器の交互方向法(ADMM)に依存し,非滑らかな目的関数を扱うために拡張ラグランジアン近似を用いる。 開発したプライベートネットワークフェデレーション学習アルゴリズムは、競合するプライバシ精度のトレードオフを持ち、非滑らかで非強い凸問題を処理する。 プライバシ保証とアルゴリズムの正確な解への収束の完全な理論的証明を提供する。 また、このアルゴリズムが$O(1/n)$ADMM反復に収束するという仮定も追加で証明する。 最後に,アルゴリズムの性能を一連の数値シミュレーションで観察する。

This paper develops a networked federated learning algorithm to solve nonsmooth objective functions. To guarantee the confidentiality of the participants with respect to each other and potential eavesdroppers, we use the zero-concentrated differential privacy notion (zCDP). Privacy is achieved by perturbing the outcome of the computation at each client with a variance-decreasing Gaussian noise. ZCDP allows for better accuracy than the conventional $(\epsilon, \delta)$-DP and stronger guarantees than the more recent R\'enyi-DP by assuming adversaries aggregate all the exchanged messages. The proposed algorithm relies on the distributed Alternating Direction Method of Multipliers (ADMM) and uses the approximation of the augmented Lagrangian to handle nonsmooth objective functions. The developed private networked federated learning algorithm has a competitive privacy accuracy trade-off and handles nonsmooth and non-strongly convex problems. We provide complete theoretical proof for the privacy guarantees and the algorithm's convergence to the exact solution. We also prove under additional assumptions that the algorithm converges in $O(1/n)$ ADMM iterations. Finally, we observe the performance of the algorithm in a series of numerical simulations.
翻訳日:2024-02-22 21:08:46 公開日:2024-02-21
# 階層的ニューラルネットワークシミュレーションに基づくイベントアンサンブル上の推論

Hierarchical Neural Simulation-Based Inference Over Event Ensembles ( http://arxiv.org/abs/2306.12584v2 )

ライセンス: Link先を確認
Lukas Heinrich, Siddharth Mishra-Sharma, Chris Pollard, and Philipp Windischhofer(参考訳) 実世界のデータを分析する際には、イベントアンサンブル(イベントアンサンブル)を扱うのが一般的である。 このようなモデルはしばしば階層構造を持ち、個々のイベントに"ローカル"パラメータが影響し、データセット全体に"グローバル"パラメータが影響を及ぼす。 確率が引き起こされる場合において、頻度論的およびベイズ的データセットワイド確率推定のための実践的アプローチを導入するが、シミュレーションは階層的フォワードモデルにより実現できる。 確率(比)または後部についてニューラル推定器を構築し,モデルの階層構造を明示的に考慮することにより,パラメータの制約が大幅に厳しくなることを示す。 我々は物理科学のケーススタディを用いて、粒子物理学と宇宙論の例に注目した。

When analyzing real-world data it is common to work with event ensembles, which comprise sets of observations that collectively constrain the parameters of an underlying model of interest. Such models often have a hierarchical structure, where "local" parameters impact individual events and "global" parameters influence the entire dataset. We introduce practical approaches for frequentist and Bayesian dataset-wide probabilistic inference in cases where the likelihood is intractable, but simulations can be realized via a hierarchical forward model. We construct neural estimators for the likelihood(-ratio) or posterior and show that explicitly accounting for the model's hierarchical structure can lead to significantly tighter parameter constraints. We ground our discussion using case studies from the physical sciences, focusing on examples from particle physics and cosmology.
翻訳日:2024-02-22 21:08:25 公開日:2024-02-21
# 大規模言語モデル時代のAutoML:現在の課題、将来の可能性、リスク

AutoML in the Age of Large Language Models: Current Challenges, Future Opportunities and Risks ( http://arxiv.org/abs/2306.08107v3 )

ライセンス: Link先を確認
Alexander Tornede, Difan Deng, Theresa Eimer, Joseph Giovanelli, Aditya Mohan, Tim Ruhkopf, Sarah Segel, Daphne Theodorakopoulos, Tanja Tornede, Henning Wachsmuth, Marius Lindauer(参考訳) 自然言語処理(NLP)と自動機械学習(Automated Machine Learning)の両方の分野は、ここ数年で顕著な成果を上げてきた。 NLPでは、特にLarge Language Models (LLM) は、最近、急激なブレークスルーを経験している。 2つのフィールドが緊密な統合によって相互の境界を根本的に押し付けることができると私たちは考えています。 このビジョンを実証するために、AutoMLとLLMの共生関係の可能性を探り、相互に利益をもたらす方法について光を当てる。 特に、異なる視点からLLMでAutoMLアプローチを強化する機会と、LLMをさらに改善するためにAutoMLを活用することの課題について検討する。 この目的のために、既存の作業を調査し、リスクを批判的に評価する。 2つのフィールドの統合は、NLPとAutoMLの両方のフィールドをディスラプトする可能性があると強く信じています。 認識可能な相乗効果だけでなくリスクも強調することにより、AutoMLとLCMの交差点でのさらなる探索を促進することを目指している。

The fields of both Natural Language Processing (NLP) and Automated Machine Learning (AutoML) have achieved remarkable results over the past years. In NLP, especially Large Language Models (LLMs) have experienced a rapid series of breakthroughs very recently. We envision that the two fields can radically push the boundaries of each other through tight integration. To showcase this vision, we explore the potential of a symbiotic relationship between AutoML and LLMs, shedding light on how they can benefit each other. In particular, we investigate both the opportunities to enhance AutoML approaches with LLMs from different perspectives and the challenges of leveraging AutoML to further improve LLMs. To this end, we survey existing work, and we critically assess risks. We strongly believe that the integration of the two fields has the potential to disrupt both fields, NLP and AutoML. By highlighting conceivable synergies, but also risks, we aim to foster further exploration at the intersection of AutoML and LLMs.
翻訳日:2024-02-22 21:07:40 公開日:2024-02-21
# オフライン・オンライン強化学習のための簡易統一不確実性誘導フレームワーク

A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2306.07541v2 )

ライセンス: Link先を確認
Siyuan Guo, Yanchao Sun, Jifeng Hu, Sili Huang, Hechang Chen, Haiyin Piao, Lichao Sun, Yi Chang(参考訳) オフライン強化学習(rl)は、データ駆動パラダイムに完全に依存したエージェントを学習するための有望なソリューションを提供する。 しかし、オフラインデータセットの品質が制限されているため、そのパフォーマンスはしばしばサブ最適である。 そのため、デプロイ前に追加のオンラインインタラクションを通じてエージェントをさらに微調整することが望まれる。 残念なことに、オフラインからオフラインへのRLは2つの大きな課題がある。 この目的のために,本研究では,両課題に対するソリューションを不確実性ツールで自然に統一する,シンプルな統一uNcertainty-Guided(SUNG)フレームワークを提案する。 特に、SUNGは、VAEに基づく状態行動訪問密度推定器を介して不確実性を定量化する。 効率的な探索を容易にするため,SUNGは,高い価値と高い不確実性の両方で情報的行動を選択するための実用的な楽観的な探索戦略を提案する。 さらに、SUNGは、オフラインおよびオンラインステージを円滑に橋渡しするために、保守的なオフラインRL目標を高不確かさサンプルに適用し、標準オンラインRL目標を低不確かさサンプルに適用し、適応的な利用方法を開発した。 SUNGは、D4RLベンチマークのさまざまな環境やデータセットで、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンライン微調整のパフォーマンスを達成する。

Offline reinforcement learning (RL) provides a promising solution to learning an agent fully relying on a data-driven paradigm. However, constrained by the limited quality of the offline dataset, its performance is often sub-optimal. Therefore, it is desired to further finetune the agent via extra online interactions before deployment. Unfortunately, offline-to-online RL can be challenging due to two main challenges: constrained exploratory behavior and state-action distribution shift. To this end, we propose a Simple Unified uNcertainty-Guided (SUNG) framework, which naturally unifies the solution to both challenges with the tool of uncertainty. Specifically, SUNG quantifies uncertainty via a VAE-based state-action visitation density estimator. To facilitate efficient exploration, SUNG presents a practical optimistic exploration strategy to select informative actions with both high value and high uncertainty. Moreover, SUNG develops an adaptive exploitation method by applying conservative offline RL objectives to high-uncertainty samples and standard online RL objectives to low-uncertainty samples to smoothly bridge offline and online stages. SUNG achieves state-of-the-art online finetuning performance when combined with different offline RL methods, across various environments and datasets in D4RL benchmark.
翻訳日:2024-02-22 21:07:25 公開日:2024-02-21
# 検索強化コントラスト視覚テキストモデル

Retrieval-Enhanced Contrastive Vision-Text Models ( http://arxiv.org/abs/2306.07196v2 )

ライセンス: Link先を確認
Ahmet Iscen, Mathilde Caron, Alireza Fathi, Cordelia Schmid(参考訳) CLIPのような対照的な画像テキストモデルは、多くの最先端システムの構成要素を形成する。 一般的な汎用概念の認識には優れていますが、未熟な、あるいはトレーニング済みのデータセットにない細かなエンティティには依然として苦労しています。 したがって、その成功の鍵となる要素は、事前学習段階で記憶できる概念セットを拡張することを目的とした、大規模にキュレートされた事前学習データの利用である。 本研究では、モデルパラメータに直接詳細な知識をエンコードする代替手法について検討する。代わりに、モデルにトレーニングを行い、その知識を外部メモリから取得する。 具体的には,既存の視覚テキストモデルに推論時にメモリから取得したクロスモーダルな情報で埋め込みを洗練させ,ゼロショット予測を大幅に改善することを提案する。 注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。 実験の結果,CLIPの精度は,例えばStanford Carsでは+10.9,CUB-2011では+10.2,OVENベンチマークでは+7.3,未確認クラスでは+7.3,といった難易度の高いタスクで大幅に向上した。

Contrastive image-text models such as CLIP form the building blocks of many state-of-the-art systems. While they excel at recognizing common generic concepts, they still struggle on fine-grained entities which are rare, or even absent from the pre-training dataset. Hence, a key ingredient to their success has been the use of large-scale curated pre-training data aiming at expanding the set of concepts that they can memorize during the pre-training stage. In this work, we explore an alternative to encoding fine-grained knowledge directly into the model's parameters: we instead train the model to retrieve this knowledge from an external memory. Specifically, we propose to equip existing vision-text models with the ability to refine their embedding with cross-modal retrieved information from a memory at inference time, which greatly improves their zero-shot predictions. Remarkably, we show that this can be done with a light-weight, single-layer, fusion transformer on top of a frozen CLIP. Our experiments validate that our retrieval-enhanced contrastive (RECO) training improves CLIP performance substantially on several challenging fine-grained tasks: for example +10.9 on Stanford Cars, +10.2 on CUB-2011 and +7.3 on the recent OVEN benchmark, where we even outperform the fine-tuned models on unseen classes.
翻訳日:2024-02-22 21:07:00 公開日:2024-02-21
# SENS: 部分認識型スケッチベースインプシットニューラル形状モデリング

SENS: Part-Aware Sketch-based Implicit Neural Shape Modeling ( http://arxiv.org/abs/2306.06088v2 )

ライセンス: Link先を確認
Alexandre Binninger, Amir Hertz, Olga Sorkine-Hornung, Daniel Cohen-Or, Raja Giryes(参考訳) 本稿では,手描きスケッチから3Dモデルを生成し編集するための新しい手法であるSENSについて述べる。 提案手法では,形状を高速かつ容易にスケッチし,そのスケッチを部分認識型暗黙的形状アーキテクチャの潜在空間にマッピングする。 SENSはスケッチを分析し、部品をViTパッチエンコーディングにエンコードし、その後トランスフォーマーデコーダに供給し、3Dニューラルな暗黙の形状を編集するのに適した形状の埋め込みに変換する。 SENSは直感的なスケッチベースの生成と編集を提供し、ユーザのスケッチの意図を捉えて、抽象的かつ不正確なスケッチであっても、様々な斬新で表現力のある3D形状を生成する。 さらに、SENSは部分再構成による洗練をサポートし、微調整とアーティファクトの除去を可能にする。 パートベースのモデリング機能もあり、複数のスケッチの機能を組み合わせることで、より複雑でカスタマイズされた3D形状を作れる。 本モデルの有効性を客観的評価基準とユーザスタディを用いて実証し,中程度の抽象度を有するスケッチに対して強い性能を示す。 さらに,本手法の直感的なスケッチベースの形状編集機能を示し,ユーザビリティスタディにより検証する。

We present SENS, a novel method for generating and editing 3D models from hand-drawn sketches, including those of abstract nature. Our method allows users to quickly and easily sketch a shape, and then maps the sketch into the latent space of a part-aware neural implicit shape architecture. SENS analyzes the sketch and encodes its parts into ViT patch encoding, subsequently feeding them into a transformer decoder that converts them to shape embeddings suitable for editing 3D neural implicit shapes. SENS provides intuitive sketch-based generation and editing, and also succeeds in capturing the intent of the user's sketch to generate a variety of novel and expressive 3D shapes, even from abstract and imprecise sketches. Additionally, SENS supports refinement via part reconstruction, allowing for nuanced adjustments and artifact removal. It also offers part-based modeling capabilities, enabling the combination of features from multiple sketches to create more complex and customized 3D shapes. We demonstrate the effectiveness of our model compared to the state-of-the-art using objective metric evaluation criteria and a user study, both indicating strong performance on sketches with a medium level of abstraction. Furthermore, we showcase our method's intuitive sketch-based shape editing capabilities, and validate it through a usability study.
翻訳日:2024-02-22 21:06:35 公開日:2024-02-21
# 深層ネットワークを創り出すにはどうすればいいのか:基本的な限界視点

How Sparse Can We Prune A Deep Network: A Fundamental Limit Viewpoint ( http://arxiv.org/abs/2306.05857v2 )

ライセンス: Link先を確認
Qiaozhe Zhang, Ruijie Zhang, Jun Sun, Yingzhuang Liu(参考訳) ネットワークプルーニングは、高過パラメータ化に起因するディープニューラルネットワークのストレージと計算負荷を軽減する効果的な手段である。 パフォーマンスを犠牲にすることなく、ディープネットワークをいかにスパースにできるのか? この問題に対処するために、本研究では、最初の原理的アプローチ、すなわち、元の損失関数に直接スパーシティ制約を課し、凸幾何学における \textit{statistical dimension} の概念を利用して、スパーシティの必要十分条件(\textit{ which turns to almost coincide})を特徴付ける。 この基本的な限界を通じて、プルーニング比の限界を決定する2つの重要な要因、すなわち、重み度とネットワーク平坦度を特定できる。 概して、損失景観が平坦であるほど、あるいは重量の大きさが小さくなるほど、刈り取り比率が小さくなる。 さらに,大規模かつ非正のヘッセン行列の正確なスペクトル推定を含むプルーニング限界計算の課題に対処するための効率的な対策も提供する。 さらに、プルーニング比閾値のレンズを通して、既存のプルーニングアルゴリズムにおけるいくつかのヒューリスティックスに関する厳密な解釈を提供することができる。 我々の理論的なプルーニング比の閾値が実験と非常によく一致することを示す大規模な実験が行われた。 https://github.com/QiaozheZhang/Global-One-shot-Pruning

Network pruning is an effective measure to alleviate the storage and computational burden of deep neural networks arising from its high overparameterization. Thus raises a fundamental question: How sparse can we prune a deep network without sacrifice on the performance? To address this problem, in this work we'll take a first principles approach, i.e. we directly impose the sparsity constraint on the original loss function and then characterize the necessary and sufficient condition of the sparsity (\textit{which turns out to nearly coincide}) by leveraging the notion of \textit{statistical dimension} in convex geometry. Through this fundamental limit, we're able to identify two key factors that determine the pruning ratio limit, i.e., weight magnitude and network flatness. Generally speaking, the flatter the loss landscape or the smaller the weight magnitude, the smaller pruning ratio. In addition, we provide efficient countermeasures to address the challenges in computing the pruning limit, which involves accurate spectrum estimation of a large-scale and non-positive Hessian matrix. Moreover, through the lens of the pruning ratio threshold, we can provide rigorous interpretations on several heuristics in existing pruning algorithms. Extensive experiments are performed that demonstrate that the our theoretical pruning ratio threshold coincides very well with the experiments. All codes are available at: https://github.com/QiaozheZhang/Global-One-shot-Pruning
翻訳日:2024-02-22 21:06:13 公開日:2024-02-21
# 正規化同変ニューラルネットワークと画像雑音化への応用

Normalization-Equivariant Neural Networks with Application to Image Denoising ( http://arxiv.org/abs/2306.05037v2 )

ライセンス: Link先を確認
S\'ebastien Herbreteau, Emmanuel Moebel and Charles Kervrann(参考訳) 多くの情報処理システムでは、入力の変化がシフトしたりスケールしたりすることで、対応するシステム応答が変化することを保証することが望ましい。 ディープニューラルネットワークは、従来の全ての自動処理方法を徐々に置き換えつつあるが、このような正規化等価性(スケール+シフト)は驚くほど保証されていない。 この問題に対処するために,既存のニューラルネットワークを設計による正規化等分散に適応させる手法を提案する。 我々の主張は、通常の畳み込み層だけでなく、前活性化ニューロンに要素的に適用されるReLU(rerectified linear unit)を含む全ての活性化関数も、ニューラルネットワークから完全に取り除かれ、より良い条件付き代替物に置き換えられるべきである、というものである。 この目的のために,アフィン拘束畳み込み畳み込みとチャネルワイズソートプール層をサロゲートとして導入し,これら2つのアーキテクチャ変更が性能を損なうことなく正規化等価性を維持していることを示す。 画像復調実験の結果、正規化等価ニューラルネットワークは、条件付けの改善に加えて、ノイズレベルをまたいだより優れた一般化をもたらすことが示された。

In many information processing systems, it may be desirable to ensure that any change of the input, whether by shifting or scaling, results in a corresponding change in the system response. While deep neural networks are gradually replacing all traditional automatic processing methods, they surprisingly do not guarantee such normalization-equivariance (scale + shift) property, which can be detrimental in many applications. To address this issue, we propose a methodology for adapting existing neural networks so that normalization-equivariance holds by design. Our main claim is that not only ordinary convolutional layers, but also all activation functions, including the ReLU (rectified linear unit), which are applied element-wise to the pre-activated neurons, should be completely removed from neural networks and replaced by better conditioned alternatives. To this end, we introduce affine-constrained convolutions and channel-wise sort pooling layers as surrogates and show that these two architectural modifications do preserve normalization-equivariance without loss of performance. Experimental results in image denoising show that normalization-equivariant neural networks, in addition to their better conditioning, also provide much better generalization across noise levels.
翻訳日:2024-02-22 21:05:47 公開日:2024-02-21
# 視覚言語モデルにおけるゼロショット一般化のためのクリップ報酬によるテスト時間適応

Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models ( http://arxiv.org/abs/2305.18010v2 )

ライセンス: Link先を確認
Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) 事前学習された視覚言語モデル~(VLM)学習の興味深い側面は、その印象的なゼロショット一般化能力である。 しかし、この能力はトレーニングとテストデータの分散シフトによって阻害される。 ゼロショット分類におけるVLMの以前のテスト時間適応~(TTA)方法は、モデル出力のエントロピーを最小化することに依存しており、誤ったモデル予測に留まる傾向にある。 本研究では,モデル出力を補正し,モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 具体的には、TTAの報酬モデルとしてCLIPモデルを採用し、VLMにフィードバックを提供する。 単一のテストサンプルが与えられた場合、VLM出力分布からの入力とサンプル結果の間のCLIP報酬を最大化せざるを得ない。 提案する‘textit{reinforcement learning with CLIP feedback~(RLCF)}フレームワークは非常に柔軟で普遍的だ。 分類タスクを超えて、タスク固有のサンプリング戦略と適切な報酬ベースライン選択により、RCCFは検索のような識別タスクだけでなく、画像キャプションのような一般化タスクにも容易に拡張でき、VLMのゼロショット一般化能力を向上させることができる。 これらのVLタスクの特徴により、様々なVLMのゼロショット一般化能力を改善するために、RCCFで異なる完全TTAパイプラインを構築する。 広範な実験と有望な実験結果がrlcfの有効性を示している。 コードはhttps://github.com/mzhaoshuai/rlcfで入手できる。

One fascinating aspect of pre-trained vision-language models~(VLMs) learning under language supervision is their impressive zero-shot generalization capability. However, this ability is hindered by distribution shifts between the training and testing data. Previous test time adaptation~(TTA) methods for VLMs in zero-shot classification rely on minimizing the entropy of model outputs, tending to be stuck in incorrect model predictions. In this work, we propose TTA with feedback to rectify the model output and prevent the model from becoming blindly confident. Specifically, a CLIP model is adopted as the reward model during TTA and provides feedback for the VLM. Given a single test sample, the VLM is forced to maximize the CLIP reward between the input and sampled results from the VLM output distribution. The proposed \textit{reinforcement learning with CLIP feedback~(RLCF)} framework is highly flexible and universal. Beyond the classification task, with task-specific sampling strategies and a proper reward baseline choice, RLCF can be easily extended to not only discrimination tasks like retrieval but also generalization tasks like image captioning, improving the zero-shot generalization capacity of VLMs. According to the characteristics of these VL tasks, we build different fully TTA pipelines with RLCF to improve the zero-shot generalization ability of various VLMs. Extensive experiments along with promising empirical results demonstrate the effectiveness of RLCF. The code is available at https://github.com/mzhaoshuai/RLCF.
翻訳日:2024-02-22 21:04:36 公開日:2024-02-21
# SpikeBERT:知識蒸留でBERTから学んだ言語スパイクフォーマー

SpikeBERT: A Language Spikformer Learned from BERT with Knowledge Distillation ( http://arxiv.org/abs/2308.15122v4 )

ライセンス: Link先を確認
Changze Lv, Tianlong Li, Jianhan Xu, Chenxi Gu, Zixuan Ling, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) spiking neural networks (snns)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な手段を提供する。 しかし、言語タスクのための既存のSNNのネットワークアーキテクチャは依然として単純で比較的浅く、ディープアーキテクチャは十分に検討されていないため、BERTのような主流のトランスフォーマーベースネットワークと比較して大きな性能差がある。 この目的のために,最近発表されたスパイキングトランス(すなわちspikformer)を改良し,言語タスクの処理を可能にするとともに,bert からの知識を大量のラベルなしテキストに蒸留し,同じトレーニング例で微調整されたbert からタスク固有インスタンスに微調整することにより,事前学習を組み合わせる2段階の知識蒸留法を提案する。 広範にわたる実験により、我々の手法で訓練されたSpikeBERTは、最先端のSNNより優れており、よりエネルギー消費の少ない英語と中国語のテキスト分類タスクにおいてBERTに匹敵する結果が得られた。 私たちのコードはhttps://github.com/lvchangze/spikebertで利用可能です。

Spiking neural networks (SNNs) offer a promising avenue to implement deep neural networks in a more energy-efficient way. However, the network architectures of existing SNNs for language tasks are still simplistic and relatively shallow, and deep architectures have not been fully explored, resulting in a significant performance gap compared to mainstream transformer-based networks such as BERT. To this end, we improve a recently-proposed spiking Transformer (i.e., Spikformer) to make it possible to process language tasks and propose a two-stage knowledge distillation method for training it, which combines pre-training by distilling knowledge from BERT with a large collection of unlabelled texts and fine-tuning with task-specific instances via knowledge distillation again from the BERT fine-tuned on the same training examples. Through extensive experimentation, we show that the models trained with our method, named SpikeBERT, outperform state-of-the-art SNNs and even achieve comparable results to BERTs on text classification tasks for both English and Chinese with much less energy consumption. Our code is available at https://github.com/Lvchangze/SpikeBERT.
翻訳日:2024-02-22 20:57:14 公開日:2024-02-21
# mCL-NER:マルチビューコントラスト学習による言語間名前付きエンティティ認識

mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning ( http://arxiv.org/abs/2308.09073v2 )

ライセンス: Link先を確認
Ying Mo, Jian Yang, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang, Zhoujun Li(参考訳) 言語間の名前付きエンティティ認識(CrossNER)は多言語コーパスの不足による不均一なパフォーマンスに起因する課題に直面している。 これまでの取り組みは主にデータ駆動転送方式に重点を置いていたが、十分に検討されていない重要な側面は、さまざまな言語にまたがるセマンティックとトークンレベルの表現の整合である。 本稿では,言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。 具体的には、CrossNERタスクをトークンのペア間の関係を認識する問題に再構成する。 このアプローチでは、エンティティ内のトークン間接続の固有のコンテキストニュアンスを活用して、さまざまな言語にまたがる表現の調整を可能にします。 多視点のコントラスト学習フレームワークを導入し、ソース、コードスイッチ、ターゲット文間の意味的コントラスト、およびトークンとトークンの関係の間のコントラストを包含する。 セマンティックおよびリレーショナル空間内での合意を強制することにより、ソース文とコード切替およびターゲット文の相違を最小化する。 このアライメントは多様なトークン間の関係にまで拡張され、言語間のエンティティの投影が強化される。 さらに,ラベル付きソースデータとラベルなしターゲットデータとの自己学習を組み合わせることで,クロスナーをさらに強化する。 40言語にわたるXTREMEベンチマーク実験では,従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。 幅広い範囲で2.0ドル近いスコアを達成し、新たな最先端のパフォーマーとしての地位を確立している。

Cross-lingual named entity recognition (CrossNER) faces challenges stemming from uneven performance due to the scarcity of multilingual corpora, especially for non-English data. While prior efforts mainly focus on data-driven transfer methods, a significant aspect that has not been fully explored is aligning both semantic and token-level representations across diverse languages. In this paper, we propose Multi-view Contrastive Learning for Cross-lingual Named Entity Recognition (mCL-NER). Specifically, we reframe the CrossNER task into a problem of recognizing relationships between pairs of tokens. This approach taps into the inherent contextual nuances of token-to-token connections within entities, allowing us to align representations across different languages. A multi-view contrastive learning framework is introduced to encompass semantic contrasts between source, codeswitched, and target sentences, as well as contrasts among token-to-token relations. By enforcing agreement within both semantic and relational spaces, we minimize the gap between source sentences and their counterparts of both codeswitched and target sentences. This alignment extends to the relationships between diverse tokens, enhancing the projection of entities across languages. We further augment CrossNER by combining self-training with labeled source data and unlabeled target data. Our experiments on the XTREME benchmark, spanning 40 languages, demonstrate the superiority of mCL-NER over prior data-driven and model-based approaches. It achieves a substantial increase of nearly +2.0 $F_1$ scores across a broad spectrum and establishes itself as the new state-of-the-art performer.
翻訳日:2024-02-22 20:56:50 公開日:2024-02-21
# 高thresholdおよび低オーバヘッドフォールトトレラント量子メモリ

High-threshold and low-overhead fault-tolerant quantum memory ( http://arxiv.org/abs/2308.07915v2 )

ライセンス: Link先を確認
Sergey Bravyi, Andrew W. Cross, Jay M. Gambetta, Dmitri Maslov, Patrick Rall, and Theodore J. Yoder(参考訳) 量子誤差補正は、物理誤差率が特定の量子コード、シンドローム測定回路、復号アルゴリズムに依存するしきい値以下である場合に限り、実用的な可能性となる。 本稿では、標準回路ベースノイズモデルに対して、誤り閾値が0.8\%のLDPC符号のファミリに基づいて、フォールトトレラントメモリを実装したエンドツーエンドの量子誤り訂正プロトコルを提案する。 これは、20年近くにわたって高いエラーしきい値の点で、未証明のリーダのままである表面コードと同等です。 われわれの家族では、長さn$のコードに対する完全なシンドロームの測定サイクルは、n$アンシラリーキュービットと最寄りのcnotゲートからなる深さ7回路を必要とする。 必要となるqubit接続は、2つのエッジ非結合平面グラフからなる次数6グラフである。 具体例として、288個の物理量子ビットを用いて100万のシンドロームサイクルで12個の論理量子ビットを保存できることを示す。 我々は、表面コードで12の論理キュービットで同じレベルのエラー抑制を達成するには、3000近い物理キュービットが必要であると主張している。 我々の発見は、短期量子プロセッサの範囲内で、低オーバーヘッドのフォールトトレラント量子メモリのデモンストレーションをもたらす。

Quantum error correction becomes a practical possibility only if the physical error rate is below a threshold value that depends on a particular quantum code, syndrome measurement circuit, and decoding algorithm. Here we present an end-to-end quantum error correction protocol that implements fault-tolerant memory based on a family of LDPC codes with a high encoding rate that achieves an error threshold of $0.8\%$ for the standard circuit-based noise model. This is on par with the surface code which has remained an uncontested leader in terms of its high error threshold for nearly 20 years. The full syndrome measurement cycle for a length-$n$ code in our family requires $n$ ancillary qubits and a depth-7 circuit composed of nearest-neighbor CNOT gates. The required qubit connectivity is a degree-6 graph that consists of two edge-disjoint planar subgraphs. As a concrete example, we show that 12 logical qubits can be preserved for nearly one million syndrome cycles using 288 physical qubits in total, assuming the physical error rate of $0.1\%$. We argue that achieving the same level of error suppression on 12 logical qubits with the surface code would require nearly 3000 physical qubits. Our findings bring demonstrations of a low-overhead fault-tolerant quantum memory within the reach of near-term quantum processors.
翻訳日:2024-02-22 20:56:23 公開日:2024-02-21
# 雑音対応変分固有解法:格子ゲージ理論の散逸経路

Noise-aware variational eigensolvers: a dissipative route for lattice gauge theories ( http://arxiv.org/abs/2308.03618v2 )

ライセンス: Link先を確認
Jes\'us Cobos, David F. Locher, Alejandro Bermudez, Markus M\"uller, Enrique Rico(参考訳) 本稿では, 量子シミュレータにおける $\mathbb{z}_2$ 格子ゲージ理論 (lgt) の基底状態合成のための新しい変分アンサッツを提案する。 これは、完全に決定論的なスキームで散逸演算とユニタリ演算と、考慮された格子のサイズにスケールしない回路深さとを組み合わせる。 変動パラメータが極めて少ないので、ansatzは$>\! 99 %$ エネルギーの精度は、$\mathbb{Z}_2$ LGT の閉じ込められた相と切り離された相の両方にある。 特に$\mathbb{Z}_2$ LGT の閉包分割遷移の性質に焦点をあてる場合、一元的ハミルトン変分 ansatz に対して我々の提案をベンチマークし、我々のスキームの明確な利点を見出す。 有限サイズのスケール解析を行った結果, 量子ビット数や回路深度が減少しても, 精度の高い臨界指数を推定できることがわかった。 さらに,回路レベルの雑音を受ける変分固有解器の性能について検討し,誤差率$p_{\ell}$以下を固定する変分誤差しきい値を決定することにより,層数$\ell\mapsto \ell'> \ell$を増大させることが有用であることを示す。 これらの量と、現在の量子プロセッサでは典型的なゲートエラー$p$に対して、近い将来のデバイスで$\mathbb{Z}_2$ LGTを探索する計画の展望を詳細に評価する。

We propose a novel variational ansatz for the ground-state preparation of the $\mathbb{Z}_2$ lattice gauge theory (LGT) in quantum simulators. It combines dissipative and unitary operations in a completely deterministic scheme with a circuit depth that does not scale with the size of the considered lattice. We find that, with very few variational parameters, the ansatz can achieve $>\!99\%$ precision in energy in both the confined and deconfined phase of the $\mathbb{Z}_2$ LGT. We benchmark our proposal against the unitary Hamiltonian variational ansatz and find a clear advantage of our scheme, especially when focusing on the nature of the confinement-deconfinement transition of the $\mathbb{Z}_2$ LGT. After performing a finite-size scaling analysis, we show that our dissipative variational ansatz can predict critical exponents with reasonable accuracies even for reduced qubit numbers and circuit depths. Furthermore, we investigate the performance of this variational eigensolver subject to circuit-level noise, determining variational error thresholds that fix the error rate $p_{\ell}$ below which $p<p_{\ell}$ it would be beneficial to increase the number of layers $\ell\mapsto \ell'> \ell$. In light of these quantities and for typical gate errors $p$ in current quantum processors, we provide a detailed assessment of the prospects of our scheme to explore the $\mathbb{Z}_2$ LGT on near-term devices.
翻訳日:2024-02-22 20:55:37 公開日:2024-02-21
# GaitASMS:適応型空間表現とマルチスケール時間集約による歩行認識

GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation and Multi-Scale Temporal Aggregation ( http://arxiv.org/abs/2307.15981v2 )

ライセンス: Link先を確認
Yan Sun, Hu Long, Xueling Feng, and Mark Nixon(参考訳) 歩行認識は、最も有望なビデオベースのバイオメトリック技術の一つである。 シルエットと動きの端は最も有意義な特徴であり、以前の研究ではこれらを別々に探索し、顕著な結果を得た。 しかし、咬合や視角の変化により、その歩行認識性能は予め定義された空間分割戦略に影響されることが多い。 さらに、伝統的な時間プールは通常、歩行において特有の時間情報を無視する。 上記の課題に対処するため,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案し,適応型空間表現を効果的に抽出し,マルチスケールの時間情報を自然に集約する。 アダプティブ構造化表現抽出モジュール(ASRE)は、適応エッジマスクを用いてシルエットのエッジを分離し、セマンティック潜在空間における表現を最大化する。 さらに、msta(multi-scale temporal aggregation module)は、時間集約構造による長短時間情報の効果的なモデリングを実現する。 さらに, 長期閉塞のサンプル空間を豊かにし, モデルの一般化を促進するために, ランダムマスクと呼ばれる新しいデータ拡張法を提案する。 2つのデータセットで実施された大規模な実験は、特に複雑なシーン(BGとCL)において提案手法の競争上の優位性を示す。 CASIA-Bデータセットでは、GaitASMSは平均93.5\%の精度を達成し、BGとCLでそれぞれランク1の精度を3.4\%と6.3\%で上回る。 アブレーション実験はASREとMSTAの有効性を示した。 ソースコードはhttps://github.com/YanSungithub/GaitASMSで入手できる。

Gait recognition is one of the most promising video-based biometric technologies. The edge of silhouettes and motion are the most informative feature and previous studies have explored them separately and achieved notable results. However, due to occlusions and variations in viewing angles, their gait recognition performance is often affected by the predefined spatial segmentation strategy. Moreover, traditional temporal pooling usually neglects distinctive temporal information in gait. To address the aforementioned issues, we propose a novel gait recognition framework, denoted as GaitASMS, which can effectively extract the adaptive structured spatial representations and naturally aggregate the multi-scale temporal information. The Adaptive Structured Representation Extraction Module (ASRE) separates the edge of silhouettes by using the adaptive edge mask and maximizes the representation in semantic latent space. Moreover, the Multi-Scale Temporal Aggregation Module (MSTA) achieves effective modeling of long-short-range temporal information by temporally aggregated structure. Furthermore, we propose a new data augmentation, denoted random mask, to enrich the sample space of long-term occlusion and enhance the generalization of the model. Extensive experiments conducted on two datasets demonstrate the competitive advantage of proposed method, especially in complex scenes, i.e. BG and CL. On the CASIA-B dataset, GaitASMS achieves the average accuracy of 93.5\% and outperforms the baseline on rank-1 accuracies by 3.4\% and 6.3\%, respectively, in BG and CL. The ablation experiments demonstrate the effectiveness of ASRE and MSTA. The source code is available at https://github.com/YanSungithub/GaitASMS.
翻訳日:2024-02-22 20:55:09 公開日:2024-02-21
# MeMOTR:マルチオブジェクト追跡のための長期メモリ拡張トランス

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking ( http://arxiv.org/abs/2307.15700v3 )

ライセンス: Link先を確認
Ruopeng Gao, Limin Wang(参考訳) ビデオタスクとして、複数のオブジェクト追跡(mot)がターゲットの時間的情報を効果的に捉えることが期待される。 残念ながら、既存のほとんどのメソッドは、隣接するフレーム間のオブジェクトの特徴を明示的に活用するだけで、長期の時間情報をモデル化する能力は欠如している。 本稿では,マルチオブジェクト追跡のための長期メモリ拡張トランスであるMeMOTRを提案する。 本手法は,メモリアテンション層をカスタマイズした長期メモリインジェクションを利用することにより,同一オブジェクトのトラック埋め込みをより安定かつ識別可能にする。 これにより,モデルの目標関連性が大幅に向上する。 DanceTrackの実験結果によると,MeMOTRはHOTAとAssAでそれぞれ7.9%,AssAで13.0%,最先端の手法を著しく上回っている。 さらに,本モデルは,MOT17上でのアソシエーション性能の他のトランスフォーマー方式よりも優れ,BDD100K上での一般化を実現している。 コードはhttps://github.com/MCG-NJU/MeMOTRで入手できる。

As a video task, Multiple Object Tracking (MOT) is expected to capture temporal information of targets effectively. Unfortunately, most existing methods only explicitly exploit the object features between adjacent frames, while lacking the capacity to model long-term temporal information. In this paper, we propose MeMOTR, a long-term memory-augmented Transformer for multi-object tracking. Our method is able to make the same object's track embedding more stable and distinguishable by leveraging long-term memory injection with a customized memory-attention layer. This significantly improves the target association ability of our model. Experimental results on DanceTrack show that MeMOTR impressively surpasses the state-of-the-art method by 7.9% and 13.0% on HOTA and AssA metrics, respectively. Furthermore, our model also outperforms other Transformer-based methods on association performance on MOT17 and generalizes well on BDD100K. Code is available at https://github.com/MCG-NJU/MeMOTR.
翻訳日:2024-02-22 20:54:35 公開日:2024-02-21
# ワイルフェルミオンに基づく情報の流れを制御する新しい装置と高エネルギー粒子の電磁相互作用に関するいくつかの興味深い考察

A novel device for controlling the flow of information based on Weyl fermions and some interesting remarks regarding the electromagnetic interactions of high energy particles ( http://arxiv.org/abs/2307.06489v3 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 本研究では,ワイルフェルミオンを用いて情報の流れを制御する新しい装置を提案する。 本研究では, 粒子の運動方向に垂直な電場を印加することにより, いくつかの異なるチャネル上でのワイルフェルミオンの流れを完全に制御できることを示す。 このようにして、各チャネル上のワイル電流の有無に応じて、情報を論理ビットとして送信することができる。 また,この装置の応答時間は非常に低く,そのパラメータの典型的な値では1ps未満であり,毎秒100ペタビットという非常に高い速度で情報の流れを制御することができることを示した。 このデバイスはまた、電力消費量の低さや電磁摂動に対する堅牢性など、新たな利点を提供しており、電気通信、信号処理、古典的量子コンピューティングなど、いくつかの分野で重要な応用が期待されている。 また, ワイルフェルミオンは適切な磁場を用いて, 提案装置を介して効率的に誘導できることを実証する。 最後に,高エネルギー粒子の電磁相互作用に関する特に興味深い考察を述べる。

In this work we propose a novel device for controlling the flow of information using Weyl fermions. Based on a previous work of our group, we show that it is possible to fully control the flow of Weyl fermions on several different channels, by applying an electric field perpendicular to the direction of motion of the particles on each channel. In this way, we can transmit information as logical bits, depending on the existence or not of a Weyl current on each channel. We also show that the response time of this device is exceptionally low, less than 1 ps, for typical values of its parameters, allowing the control of the flow of information at extremely high rates, of the order of 100 Petabits per second. This device also offers additional advantages, as low power consumption and robustness against electromagnetic perturbations, and is expected to find important applications in several fields, as telecommunications, signal processing, classical and quantum computing, etc. In addition, we demonstrate that Weyl fermions can be efficiently guided through the proposed device using appropriate magnetic fields. Finally, we discuss some particularly interesting remarks regarding the electromagnetic interactions of high energy particles.
翻訳日:2024-02-22 20:53:27 公開日:2024-02-21
# 光近接場における位置と偏光度推定の量子限界

Quantum Limits of Position and Polarizability Estimation in the Optical Near Field ( http://arxiv.org/abs/2307.02348v2 )

ライセンス: Link先を確認
Lukas Kienesberger, Thomas Juffmann, and Stefan Nimmrichter(参考訳) 光近接場は、センシングとイメージングにおける様々な応用の中心にある。 ディポール散乱をパラメータ推定問題として検討し,光学的近接場が各遠方フィールドよりも散乱器の位置と偏光率についてより多くの情報を持っていることを示す。 この情報の増加は、散乱過程自体から発生し、同時に発生する。 我々の計算は自由空間における双極子の遠距離局在限界も与える。

Optical near fields are at the heart of various applications in sensing and imaging. We investigate dipole scattering as a parameter estimation problem and show that optical near-fields carry more information about the location and the polarizability of the scatterer than the respective far fields. This increase in information originates from and occurs simultaneously with the scattering process itself. Our calculations also yield the far-field localization limit for dipoles in free space.
翻訳日:2024-02-22 20:53:07 公開日:2024-02-21
# 運転者の視線推定と視線行動理解への応用

A Review of Driver Gaze Estimation and Application in Gaze Behavior Understanding ( http://arxiv.org/abs/2307.01470v2 )

ライセンス: Link先を確認
Pavan Kumar Sharma and Pranamesh Chakraborty(参考訳) 運転者の視線は、運転者の注意力検出、視覚障害検出、視線行動理解、建物運転支援システムなど、様々な視線ベースのアプリケーションにおいて重要な役割を果たす。 本研究の主な目的は,運転者視線の基礎,運転者視線推定方法,実世界の運転シナリオにおける応用の総合的な要約を行うことである。 まず,ヘッドマウントおよびリモートセットアップに基づく視線推定を含むドライバの視線に関する基礎と,これらのデータ収集手法で使用される用語について論じる。 次に、既存のベンチマークドライバの注視データセットをリストアップし、収集方法論とそのようなデータ収集に使用する機器を強調する。 続いて、従来の機械学習とディープラーニングに基づくテクニックを中心に、ドライバの視線推定に使用されるアルゴリズムに関する議論が行われる。 推定されたドライバーの視線は、交差点、オンランプ、オフランプ、車線変更、道路側広告構造の影響を判断しながら視線行動を理解するために使用される。 最後に,運転者の視線推定と視線に基づく応用における既存の文献,課題,今後の展望について考察した。

Driver gaze plays an important role in different gaze-based applications such as driver attentiveness detection, visual distraction detection, gaze behavior understanding, and building driver assistance system. The main objective of this study is to perform a comprehensive summary of driver gaze fundamentals, methods to estimate driver gaze, and it's applications in real world driving scenarios. We first discuss the fundamentals related to driver gaze, involving head-mounted and remote setup based gaze estimation and the terminologies used for each of these data collection methods. Next, we list out the existing benchmark driver gaze datasets, highlighting the collection methodology and the equipment used for such data collection. This is followed by a discussion of the algorithms used for driver gaze estimation, which primarily involves traditional machine learning and deep learning based techniques. The estimated driver gaze is then used for understanding gaze behavior while maneuvering through intersections, on-ramps, off-ramps, lane changing, and determining the effect of roadside advertising structures. Finally, we have discussed the limitations in the existing literature, challenges, and the future scope in driver gaze estimation and gaze-based applications.
翻訳日:2024-02-22 20:53:01 公開日:2024-02-21
# セマンティクスマッチングによる特徴帰属法における確認バイアスの修正

Fixing confirmation bias in feature attribution methods via semantic match ( http://arxiv.org/abs/2307.00897v2 )

ライセンス: Link先を確認
Giovanni Cin\`a, Daniel Fernandez-Llaneza, Nishant Mishra, Tabea E. R\"ober, Sandro Pezzelle, Iacer Calixto, Rob Goedhart, \c{S}. \.Ilker Birbil(参考訳) 特徴帰属法は,ブラックボックスモデルの複雑な挙動を解消するための重要な手法となっている。 その成功にもかかわらず、一部の学者はそのような方法が深刻な欠陥に悩まされていると論じている。 簡単に言えば、一連の機能のコントリビューションを視覚化することは、人間がモデルの内部表現について何かを結論付けるのに十分ではない。 モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である。 これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。 cin\`a et al で示された概念的枠組みに基づく構築。 2023] 意味マッチングを実際に評価するための構造化手法を提案する。 提案手法は表や画像データにまたがる一連の実験で紹介され、意味マッチングの評価が望ましい(例えば、予測に関連のあるオブジェクトにフォーカスする)ことと望ましくないモデル行動(例えば、刺激的な相関にフォーカスする)の両方にどのように洞察を与えるかを示す。 本研究は, セマンティックマッチングを測る指標の分析結果と組み合わせ, 提案手法がXAIにおける確証バイアスの解消に向けた第一歩であると主張している。

Feature attribution methods have become a staple method to disentangle the complex behavior of black box models. Despite their success, some scholars have argued that such methods suffer from a serious flaw: they do not allow a reliable interpretation in terms of human concepts. Simply put, visualizing an array of feature contributions is not enough for humans to conclude something about a model's internal representations, and confirmation bias can trick users into false beliefs about model behavior. We argue that a structured approach is required to test whether our hypotheses on the model are confirmed by the feature attributions. This is what we call the "semantic match" between human concepts and (sub-symbolic) explanations. Building on the conceptual framework put forward in Cin\`a et al. [2023], we propose a structured approach to evaluate semantic match in practice. We showcase the procedure in a suite of experiments spanning tabular and image data, and show how the assessment of semantic match can give insight into both desirable (e.g., focusing on an object relevant for prediction) and undesirable model behaviors (e.g., focusing on a spurious correlation). We couple our experimental results with an analysis on the metrics to measure semantic match, and argue that this approach constitutes the first step towards resolving the issue of confirmation bias in XAI.
翻訳日:2024-02-22 20:52:40 公開日:2024-02-21
# NeuralFuse:低電圧レジームにおけるアクセス制限型ニューラルネットワーク推論の精度回復のための学習

NeuralFuse: Learning to Recover the Accuracy of Access-Limited Neural Network Inference in Low-Voltage Regimes ( http://arxiv.org/abs/2306.16869v2 )

ライセンス: Link先を確認
Hao-Lun Sun, Lei Hsiung, Nandhini Chandramoorthy, Pin-Yu Chen, Tsung-Yi Ho(参考訳) ディープラーニング(Deep Neural Network, DNN)は、機械学習においてユビキタスになったが、そのエネルギー消費は注目すべき問題である。 供給電圧の低下はエネルギー消費を減らす効果的な戦略である。 しかし、サプライ電圧を積極的にスケールダウンすると、モデルパラメータが格納されている静的ランダムアクセスメモリ(SRAM)において、ランダムビットフリップによる精度低下につながる可能性がある。 この課題に対処するために,我々は,入力変換を学習してエラー耐性データ表現を生成することで低電圧環境における精度とエネルギーのトレードオフに対処する,新しいアドオンモジュールneuralfuseを紹介する。 NeuralFuseは、名目と低電圧の両方のシナリオでDNNの精度を保護する。 さらに、NeuralFuseは実装が容易で、構成不可能なハードウェアやクラウドベースのAPIへのリモートアクセスなど、限られたアクセスでDNNに簡単に適用できる。 実験の結果、1%のビット誤り率で、NeuralFuseはSRAMメモリアクセスエネルギーを最大24%削減し、精度を最大57%向上させることができることがわかった。 我々の知る限りでは、これは低電圧によるビットエラーに対処する最初のモデルに依存しないアプローチである。 ソースコードはhttps://github.com/ibm/neuralfuseで入手できる。

Deep neural networks (DNNs) have become ubiquitous in machine learning, but their energy consumption remains a notable issue. Lowering the supply voltage is an effective strategy for reducing energy consumption. However, aggressively scaling down the supply voltage can lead to accuracy degradation due to random bit flips in static random access memory (SRAM) where model parameters are stored. To address this challenge, we introduce NeuralFuse, a novel add-on module that addresses the accuracy-energy tradeoff in low-voltage regimes by learning input transformations to generate error-resistant data representations. NeuralFuse protects DNN accuracy in both nominal and low-voltage scenarios. Moreover, NeuralFuse is easy to implement and can be readily applied to DNNs with limited access, such as non-configurable hardware or remote access to cloud-based APIs. Experimental results demonstrate that, at a 1% bit error rate, NeuralFuse can reduce SRAM memory access energy by up to 24% while recovering accuracy by up to 57%. To the best of our knowledge, this is the first model-agnostic approach (i.e., no model retraining) to address low-voltage-induced bit errors. The source code is available at https://github.com/IBM/NeuralFuse.
翻訳日:2024-02-22 20:52:18 公開日:2024-02-21
# グリーン関数に対する極小特異性の原理

Principle of minimal singularity for Green's functions ( http://arxiv.org/abs/2309.02201v4 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 整数値パラメータの解析的継続は、レゲ理論における角運動量、スピングラスにおけるレプリカの数、内部自由度数、次元正規化における時空次元、ウィルソンの正規化群といった深い洞察をもたらす。 本研究では,d$次元時空におけるディソン・シュウィンガー方程式の非定式化に対する2つの最近のアプローチに触発された相関関数の新たな解析的継続について考察する。 グリーン函数 $G_n=\langle\phi^n\rangle$ が複素値に対する解析的連続を$n$ と認めると、2つの異なるアプローチは自己整合問題の新しい原理によって統一される。 この原理は、クォート理論におけるグリーン関数の異なる分岐の融合として表される。 D=0$ に対して、複素カップリング定数 $g$ あるいは非整数パワー $m$ を含む一般 $g\phi^m$ 理論の閉形式解を得る。 d=1$ に対して、エルミート四量体および非エルミート立方体理論の急速に収束した結果を導出し、特異点の複雑性を $n=\infty$ で最小化する。

Analytic continuations of integer-valued parameters can lead to profound insights, such as angular momentum in Regge theory, the number of replicas in spin glasses, the number of internal degrees of freedom, the spacetime dimension in dimensional regularization and Wilson's renormalization group. In this work, we consider a new kind of analytic continuation of correlation functions, inspired by two recent approaches to underdetermined Dyson-Schwinger equations in $D$-dimensional spacetime. If the Green's functions $G_n=\langle\phi^n\rangle$ admit analytic continuation to complex values of $n$, the two different approaches are unified by a novel principle for self-consistent problems: Singularities in the complex plane should be minimal. This principle manifests as the merging of different branches of Green's functions in the quartic theories. For $D=0$, we obtain the closed-form solutions of the general $g\phi^m$ theories, including the cases with complex coupling constant $g$ or non-integer power $m$. For $D=1$, we derive rapidly convergent results for the Hermitian quartic and non-Hermitian cubic theories by minimizing the complexity of the singularity at $n=\infty$.
翻訳日:2024-02-22 20:44:00 公開日:2024-02-21
# rgi-net: 1次エコーのない部屋インパルス応答からの3次元室内形状推定

RGI-Net: 3D Room Geometry Inference from Room Impulse Responses in the Absence of First-order Echoes ( http://arxiv.org/abs/2309.01513v2 )

ライセンス: Link先を確認
Inmo Yeon and Jung-Woo Choi(参考訳) 室内形状はリアルな3Dオーディオレンダリングを実装する上で重要な事前情報である。 このため, 室内インパルス応答における到着時刻(TOA)や到着時刻差(TDOA)情報を利用して, 様々な室内形状推定法(RGI)が開発されている。 しかし,従来のrgi手法では,凸室形状,壁面の数,一階反射の視認性など,いくつかの仮定がなされている。 本研究では,上記の仮定を使わずに部屋のジオメトリを推定できるディープニューラルネットワーク(DNN)RGI-Netを導入する。 RGI-Netは、室内インパルス応答(RIR)における高次反射の複雑な関係を学習し、利用することにより、RIRに不凸や一階反射が欠落している場合でも、室内形状を推定することができる。 このネットワークは、円形マイクアレイと1つのスピーカを備えた小型オーディオ装置からRIRを計測し、実用性を大幅に向上させる。 RGI-Netは、壁の存在確率を別々に評価する評価ネットワークを含んでおり、壁の数について事前の知識なしに幾何学的推論が可能である。

Room geometry is important prior information for implementing realistic 3D audio rendering. For this reason, various room geometry inference (RGI) methods have been developed by utilizing the time of arrival (TOA) or time difference of arrival (TDOA) information in room impulse responses. However, the conventional RGI technique poses several assumptions, such as convex room shapes, the number of walls known in priori, and the visibility of first-order reflections. In this work, we introduce the deep neural network (DNN), RGI-Net, which can estimate room geometries without the aforementioned assumptions. RGI-Net learns and exploits complex relationships between high-order reflections in room impulse responses (RIRs) and, thus, can estimate room shapes even when the shape is non-convex or first-order reflections are missing in the RIRs. The network takes RIRs measured from a compact audio device equipped with a circular microphone array and a single loudspeaker, which greatly improves its practical applicability. RGI-Net includes the evaluation network that separately evaluates the presence probability of walls, so the geometry inference is possible without prior knowledge of the number of walls.
翻訳日:2024-02-22 20:43:05 公開日:2024-02-21
# グラフニューラルネットワークにおけるランク崩壊と過度相関

Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks ( http://arxiv.org/abs/2308.16800v2 )

ライセンス: Link先を確認
Andreas Roth, Thomas Liebig(参考訳) 本研究では,ディープグラフニューラルネットワークにおけるオーバースムーシングに関する新たな理論的知見と,オーバー相関を特徴とする。 本稿では,不変部分空間の発生率を示し,特徴変換に影響を受けない固定相対挙動を示す。 本研究は,部分空間の増幅は凝集関数のスペクトルにのみ依存するため,定数状態への収束とノード状態の潜在的オーバー分離に関する最近の観測を明確にする。 線形シナリオでは、ノード表現は特徴変換とは無関係に漸近収束率を持つ低次元部分空間によって支配される。 これによりノード表現のランクが崩壊し、滑らかなベクトルがこの部分空間にまたがる場合のオーバースモーシングと、オーバースモーシングを避ける場合であってもオーバー相関が発生する。 本理論に導かれたクロネッカー積の和は, 過剰なスムーシング, 過剰相関, ランク崩壊を確実に防止する有益な性質として提案する。 我々は経験的に洞察を非線形の場合にまで拡張し、既存のモデルが線形独立な特徴をキャプチャできないことを示す。

Our study reveals new theoretical insights into over-smoothing and feature over-correlation in deep graph neural networks. We show the prevalence of invariant subspaces, demonstrating a fixed relative behavior that is unaffected by feature transformations. Our work clarifies recent observations related to convergence to a constant state and a potential over-separation of node states, as the amplification of subspaces only depends on the spectrum of the aggregation function. In linear scenarios, this leads to node representations being dominated by a low-dimensional subspace with an asymptotic convergence rate independent of the feature transformations. This causes a rank collapse of the node representations, resulting in over-smoothing when smooth vectors span this subspace, and over-correlation even when over-smoothing is avoided. Guided by our theory, we propose a sum of Kronecker products as a beneficial property that can provably prevent over-smoothing, over-correlation, and rank collapse. We empirically extend our insights to the non-linear case, demonstrating the inability of existing models to capture linearly independent features.
翻訳日:2024-02-22 20:42:42 公開日:2024-02-21
# グラフベースマルチエージェント強化学習による協調的情報伝達

Collaborative Information Dissemination with Graph-based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.16198v3 )

ライセンス: Link先を確認
Raffaele Galliera, Kristen Brent Venable, Matteo Bassani, Niranjan Suri(参考訳) 災害対応、自動運転車、センサーネットワークなど、ドメイン間の重要な操作を支援するために、効果的な情報伝達が不可欠である。 本稿では,より分散化され,効率的で協調的な情報伝達を実現するために,MARL(Multi-Agent Reinforcement Learning)アプローチを提案する。 本研究では,各エージェントがメッセージフォワードを独立に決定できる情報配信のためのPOSG(Partially Observable Stochastic Game)の定式化を提案する。 これは、現在現実世界の放送プロトコルで使われているヒューリスティックスから重要なパラダイムシフトを構成する。 我々の新しいアプローチは、グラフ畳み込み強化学習とグラフ注意ネットワーク(GAT)を利用して、重要なネットワーク特徴を捉える。 L-DyAN と HL-DyAN の2つの手法を提案する。 実験の結果,ネットワークカバレッジの面では最先端のヒューリスティックや,密度や動作の異なる動的ネットワーク上での通信オーバーヘッドなど,既存の手法よりもトレーニングされたポリシの方が優れていた。

Efficient information dissemination is crucial for supporting critical operations across domains like disaster response, autonomous vehicles, and sensor networks. This paper introduces a Multi-Agent Reinforcement Learning (MARL) approach as a significant step forward in achieving more decentralized, efficient, and collaborative information dissemination. We propose a Partially Observable Stochastic Game (POSG) formulation for information dissemination empowering each agent to decide on message forwarding independently, based on the observation of their one-hop neighborhood. This constitutes a significant paradigm shift from heuristics currently employed in real-world broadcast protocols. Our novel approach harnesses Graph Convolutional Reinforcement Learning and Graph Attention Networks (GATs) with dynamic attention to capture essential network features. We propose two approaches, L-DyAN and HL-DyAN, which differ in terms of the information exchanged among agents. Our experimental results show that our trained policies outperform existing methods, including the state-of-the-art heuristic, in terms of network coverage as well as communication overhead on dynamic networks of varying density and behavior.
翻訳日:2024-02-22 20:42:21 公開日:2024-02-21
# LAC:スケルトンに基づくアクションセグメンテーションのための潜在アクション組成

LAC: Latent Action Composition for Skeleton-based Action Segmentation ( http://arxiv.org/abs/2308.14500v4 )

ライセンス: Link先を確認
Di Yang, Yaohui Wang, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) スケルトンベースのアクションセグメンテーションは、未トリミングビデオにおける合成可能なアクションを認識する必要がある。 現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルで処理し、フレームワイズアクションを分類することでこの問題を分離している。 しかし、視覚機能は構成可能なアクションを十分に表現できないため、パフォーマンスは限られている。 本研究では,骨格をベースとしたアクションセグメンテーションのための合成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。 LACは新規な生成モジュールからなり、新しい配列を合成する。 具体的には、原始運動を表現するために発電機内の線形潜在空間を設計する。 複数入力スケルトンシーケンスの潜在表現を算術演算することで、新しい合成動作を合成することができる。 LACは、大きな多様性と複雑さを持つ合成配列を利用して、コントラスト学習を通じて、シーケンスとフレーム空間の両方における骨格の視覚的表現を学習する。 生成したビジュアルエンコーダは表現力が高く、追加の時間モデルを必要としないエンドツーエンドの微調整によりアクションセグメンテーションタスクに効果的に転送できる。 トランスファーラーニングに着目した研究を行い,前訓練されたlacから得られた表現が,津,チャレード,pku-mmdデータセットにおいて,最先端技術よりも大きなマージンを持つことを示した。

Skeleton-based action segmentation requires recognizing composable actions in untrimmed videos. Current approaches decouple this problem by first extracting local visual features from skeleton sequences and then processing them by a temporal model to classify frame-wise actions. However, their performances remain limited as the visual features cannot sufficiently express composable actions. In this context, we propose Latent Action Composition (LAC), a novel self-supervised framework aiming at learning from synthesized composable motions for skeleton-based action segmentation. LAC is composed of a novel generation module towards synthesizing new sequences. Specifically, we design a linear latent space in the generator to represent primitive motion. New composed motions can be synthesized by simply performing arithmetic operations on latent representations of multiple input skeleton sequences. LAC leverages such synthesized sequences, which have large diversity and complexity, for learning visual representations of skeletons in both sequence and frame spaces via contrastive learning. The resulting visual encoder has a high expressive power and can be effectively transferred onto action segmentation tasks by end-to-end fine-tuning without the need for additional temporal models. We conduct a study focusing on transfer-learning and we show that representations learned from pre-trained LAC outperform the state-of-the-art by a large margin on TSU, Charades, PKU-MMD datasets.
翻訳日:2024-02-22 20:41:36 公開日:2024-02-21
# 音声自己監督型表現ベンチマーク:より大きい頭部の1例

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads ( http://arxiv.org/abs/2308.14456v2 )

ライセンス: Link先を確認
Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli(参考訳) 自己教師付き学習(SSL)は、ラベルなし音声の大きなデータセットを活用して、注釈付きデータの少ない量で印象的なパフォーマンスを達成する。 提案手法の多さは、音声信号の様々な側面を探索する一連の下流タスクにおける性能を評価する包括的なベンチマークの出現を促した。 しかしながら、考慮されたタスクの数が増えている一方で、ほとんどの提案は、凍結したSSL表現をタスクラベルにマップする単一のダウンストリームアーキテクチャに依存している。 本研究では,調査ヘッドアーキテクチャの変化がベンチマーク結果に与える影響について検討する。 興味深いことに、下流構造の変化は、評価されたモデルの性能ランキングに大きな変動をもたらすことがわかった。 音声sslベンチマークの一般的なプラクティスに対して,大容量検索ヘッドの評価を行い,その性能,推論コスト,一般化,マルチレベル機能活用への影響を示す。

Self-supervised learning (SSL) leverages large datasets of unlabeled speech to reach impressive performance with reduced amounts of annotated data. The high number of proposed approaches fostered the emergence of comprehensive benchmarks that evaluate their performance on a set of downstream tasks exploring various aspects of the speech signal. However, while the number of considered tasks has been growing, most proposals rely upon a single downstream architecture that maps the frozen SSL representations to the task labels. This study examines how benchmarking results are affected by changes in the probing head architecture. Interestingly, we found that altering the downstream architecture structure leads to significant fluctuations in the performance ranking of the evaluated models. Against common practices in speech SSL benchmarking, we evaluate larger-capacity probing heads, showing their impact on performance, inference costs, generalization and multi-level feature exploitation.
翻訳日:2024-02-22 20:41:08 公開日:2024-02-21
# 臨床研究のための大規模言語モデルストリームライン自動機械学習

Large Language Models Streamline Automated Machine Learning for Clinical Studies ( http://arxiv.org/abs/2308.14120v5 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Tianyu Han, Mahshad Lotfinia, Christiane Kuhl, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) 知識ギャップは、機械学習開発者(例えばデータサイエンティスト)と実践者(例えば臨床医)の間で持続し、臨床データ分析におけるMLの完全な利用を妨げる。 GPT-4の拡張であるChatGPT Advanced Data Analysis (ADA) の可能性を検討した。 各種医療専門分野にわたる大規模な臨床試験の実際の臨床データセットと研究の詳細をChatGPT ADAに提示した。 ChatGPT ADAは、がんの発生、がんの進行、合併症、病原性遺伝子配列などのバイオマーカーなどの臨床結果を予測するために、オリジナルの研究のトレーニングデータに基づく最先端MLモデルを自律的に開発した。 公開モデルの再実装と最適化により,chatgpt ada製mlモデルと手作業によるmlモデルの比較では,従来のパフォーマンス指標に有意差はみられなかった(p>0.071)。 興味深いことに、ChatGPT ADAで製作されたMLモデルは、しばしばそのモデルよりも優れていた。 結論として、chatgpt adaは、複雑なデータ分析をシンプルにすることで、医学におけるmlを民主化する有望な方法を提供しているが、医療研究と実践における幅広い応用を促進するために、専門的なトレーニングとリソースを強化すべきではない。

A knowledge gap persists between machine learning (ML) developers (e.g., data scientists) and practitioners (e.g., clinicians), hampering the full utilization of ML for clinical data analysis. We investigated the potential of the ChatGPT Advanced Data Analysis (ADA), an extension of GPT-4, to bridge this gap and perform ML analyses efficiently. Real-world clinical datasets and study details from large trials across various medical specialties were presented to ChatGPT ADA without specific guidance. ChatGPT ADA autonomously developed state-of-the-art ML models based on the original study's training data to predict clinical outcomes such as cancer development, cancer progression, disease complications, or biomarkers such as pathogenic gene sequences. Following the re-implementation and optimization of the published models, the head-to-head comparison of the ChatGPT ADA-crafted ML models and their respective manually crafted counterparts revealed no significant differences in traditional performance metrics (P>0.071). Strikingly, the ChatGPT ADA-crafted ML models often outperformed their counterparts. In conclusion, ChatGPT ADA offers a promising avenue to democratize ML in medicine by simplifying complex data analyses, yet should enhance, not replace, specialized training and resources, to promote broader applications in medical research and practice.
翻訳日:2024-02-22 20:40:51 公開日:2024-02-21
# Dual-Activated Lightweight Attention ResNet50による乳癌画像の自動分類

Dual-Activated Lightweight Attention ResNet50 for Automatic Histopathology Breast Cancer Image Classification ( http://arxiv.org/abs/2308.13150v7 )

ライセンス: Link先を確認
Suxing Liu, Anusha Achuthan, Ali Fawzi, Galib Muhammad Shahriar Himel(参考訳) 病理組織像における乳癌の自動分類は,正確な診断と治療計画に不可欠である。 近年、ResNetアーキテクチャに基づく分類手法が普及し、スキップ接続を用いて勾配問題を緩和し、低レベルの特徴情報と高レベルの特徴情報を統合することで精度を著しく向上している。 それにもかかわらず、従来のresnetアーキテクチャはデータの不均衡や限定的な解釈可能性、分野横断的な知識の必要性、医療専門家間のコラボレーションといった課題に直面している。 本研究では,乳がん分類のための新しい手法であるDual-Activated Lightweight Attention ResNet50(DALAResNet50)を導入することで,これらの課題を効果的に解決する。 トレーニング済みのResNet50モデルと軽量なアテンション機構を統合し、ResNet50の第4層にアテンションモジュールを埋め込み、LeakyReLUとReLUアクティベーション機能を備えた2つの完全に接続されたレイヤを組み込んで機能学習機能を強化している。 DALAResNet50法は,40X,100X,200X,400Xの乳がん組織像を用いて,それぞれ98.5%,98.7%,97.9%,94.3%の検診を行った。 また、SEResNet50、DenseNet121、VGG16、VGG16Inception、ViT、Swin-Transformer、Dinov2_Vitb14、ResNet50といった既存のディープラーニングモデルと比較された。 その結果、DALAResNet50はこれらのモデルを精度、精度、リコール、F1スコア、GMeanで上回り、様々な倍率で頑健さと適用性を証明し、不均衡な乳がんデータセットを扱います。

Automatic breast cancer classification in histopathology images is crucial for precise diagnosis and treatment planning. Recently, classification approaches based on the ResNet architecture have gained popularity for significantly improving accuracy by using skip connections to mitigate vanishing gradient problems, thereby integrating low-level and high-level feature information. Nevertheless, the conventional ResNet architecture faces challenges such as data imbalance and limited interpretability, necessitating cross-domain knowledge and collaboration among medical experts. This study effectively addresses these challenges by introducing a novel method for breast cancer classification, the Dual-Activated Lightweight Attention ResNet50 (DALAResNet50). It integrates a pre-trained ResNet50 model with a lightweight attention mechanism, embedding an attention module in the fourth layer of ResNet50 and incorporating two fully connected layers with LeakyReLU and ReLU activation functions to enhance feature learning capabilities. The DALAResNet50 method was tested on breast cancer histopathology images from the BreakHis Database across magnification factors of 40X, 100X, 200X, and 400X, achieving accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. It was also compared with established deep learning models such as SEResNet50, DenseNet121, VGG16, VGG16Inception, ViT, Swin-Transformer, Dinov2_Vitb14, and ResNet50. The results demonstrate that DALAResNet50 surpasses these models in precision, accuracy, recall, F1 score, and GMean, proving its robustness and applicability across various magnifications and handling imbalanced breast cancer datasets.
翻訳日:2024-02-22 20:40:26 公開日:2024-02-21
# 複雑なスケーリング法を改良した結合チャネル問題における仮想状態

Virtual states in the coupled-channel problems with an improved complex scaling method ( http://arxiv.org/abs/2308.12424v2 )

ライセンス: Link先を確認
Yan-Ke Chen, Lu Meng, Zi-Yang Lin, Shi-Lin Zhu(参考訳) 我々は,従来のCSMでは困難であった仮想状態を得るために,複雑なスケーリング法(CSM)を改善した。 本手法は,運動量空間におけるschr\"odinger方程式を,フレキシブル輪郭を選択することで固有値問題として解く。 これは多チャンネル散乱における異なるリーマンシートの極の同定に非常に有効であることが証明されている。 ルートフィンディングアルゴリズムを用いてリップマン・シュウィンガー方程式のフレドホルム行列式の零点を求めるよりも単純で効率的である。 この進歩は、量子システムにおける共鳴と仮想状態を正確に特徴付けるcsmの能力を大きく拡張する。

We improve the complex scaling method (CSM) to obtain virtual states, which were previously challenging in the conventional CSM. Our approach solves the Schr\"odinger equation in the momentum space as an eigenvalue problem by choosing the flexible contours. It proves to be highly effective in identifying the poles across the different Riemann sheets in the multichannel scatterings. It is more straightforward and efficient than searching for the zeros of the Fredholm determinant of the Lippmann-Schwinger equation using the root-finding algorithms. This advancement significantly extends the capabilities of the CSM in accurately characterizing the resonances and virtual states in quantum systems.
翻訳日:2024-02-22 20:39:48 公開日:2024-02-21
# 大規模言語モデルの公平性に関する調査

A Survey on Fairness in Large Language Models ( http://arxiv.org/abs/2308.10149v2 )

ライセンス: Link先を確認
Yingji Li, Mengnan Du, Rui Song, Xin Wang, Ying Wang(参考訳) 大規模言語モデル(LLM)は、強力なパフォーマンスと開発見通しを示し、現実世界に広くデプロイされている。 しかし、LLMは未処理のトレーニングデータから社会的バイアスを捕捉し、下流のタスクにバイアスを伝達することができる。 LLMシステムは望ましくない社会的影響と潜在的な害がある。 本稿では,LLMの公平性に関する総合的な研究について概説する。 パラメータ等級と訓練パラダイムが研究戦略に与える影響を考慮し,既存のフェアネス研究を,事前学習および微調整のパラダイムの下で中規模のLLMに,かつ,大規模LLMに区分した。 まず,中規模のLCMについて,本質的バイアスと外生的バイアスの観点から評価指標と脱バイアス法を導入する。 そこで, 大規模LLMでは, 公平性評価, 偏見の原因, 偏見の方法など, 最近の公正性研究を紹介する。 最後に,LLMの公平性向上に向けた課題と今後の方向性について考察し,考察する。

Large Language Models (LLMs) have shown powerful performance and development prospects and are widely deployed in the real world. However, LLMs can capture social biases from unprocessed training data and propagate the biases to downstream tasks. Unfair LLM systems have undesirable social impacts and potential harms. In this paper, we provide a comprehensive review of related research on fairness in LLMs. Considering the influence of parameter magnitude and training paradigm on research strategy, we divide existing fairness research into oriented to medium-sized LLMs under pre-training and fine-tuning paradigms and oriented to large-sized LLMs under prompting paradigms. First, for medium-sized LLMs, we introduce evaluation metrics and debiasing methods from the perspectives of intrinsic bias and extrinsic bias, respectively. Then, for large-sized LLMs, we introduce recent fairness research, including fairness evaluation, reasons for bias, and debiasing methods. Finally, we discuss and provide insight on the challenges and future directions for the development of fairness in LLMs.
翻訳日:2024-02-22 20:39:37 公開日:2024-02-21
# DiffusionTrack:マルチオブジェクト追跡のための拡散モデル

DiffusionTrack: Diffusion Model For Multi-Object Tracking ( http://arxiv.org/abs/2308.09905v2 )

ライセンス: Link先を確認
Run Luo, Zikai Song, Lintao Ma, Jinlin Wei, Wei Yang, Min Yang(参考訳) マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。 近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。 これらのアプローチの成功にもかかわらず、それらはまた、有害なグローバルまたはローカルの矛盾、堅牢性とモデルの複雑さの間の不利なトレードオフ、同じビデオ内の異なるシーンでの柔軟性の欠如など、共通の問題も抱えている。 本稿では,物体検出と相関を,一対の雑音箱から一対の地中箱への一貫した分節拡散過程として定式化する,単純かつ頑健な枠組みを提案する。 このプログレッシブデノナイジング拡散戦略は、トラッカーの有効性を大幅に向上させ、様々な物体の識別を可能にする。 トレーニング期間中、ペア化されたオブジェクトボックスは、ペア化された接地木箱からランダムな分布へと拡散し、このノイズ発生過程を逆転させて検出と追跡を同時に学習する。 推論において、モデルはペア化されたランダムに生成されたボックスの集合を改良し、フレキシブルなワンステップまたはマルチステップのデノナイズ拡散過程における検出および追跡結果を生成する。 MOT17,MOT20,Dancetrackなど,広く使用されている3つのMOTベンチマークに対する大規模な実験により,現在の最先端手法と比較して,我々のアプローチが競争性能を達成することを示した。

Multi-object tracking (MOT) is a challenging vision task that aims to detect individual objects within a single frame and associate them across multiple frames. Recent MOT approaches can be categorized into two-stage tracking-by-detection (TBD) methods and one-stage joint detection and tracking (JDT) methods. Despite the success of these approaches, they also suffer from common problems, such as harmful global or local inconsistency, poor trade-off between robustness and model complexity, and lack of flexibility in different scenes within the same video. In this paper we propose a simple but robust framework that formulates object detection and association jointly as a consistent denoising diffusion process from paired noise boxes to paired ground-truth boxes. This novel progressive denoising diffusion strategy substantially augments the tracker's effectiveness, enabling it to discriminate between various objects. During the training stage, paired object boxes diffuse from paired ground-truth boxes to random distribution, and the model learns detection and tracking simultaneously by reversing this noising process. In inference, the model refines a set of paired randomly generated boxes to the detection and tracking results in a flexible one-step or multi-step denoising diffusion process. Extensive experiments on three widely used MOT benchmarks, including MOT17, MOT20, and Dancetrack, demonstrate that our approach achieves competitive performance compared to the current state-of-the-art methods.
翻訳日:2024-02-22 20:39:20 公開日:2024-02-21
# TranDRL: 規範的メンテナンスフレームワークを実現するトランスフォーマー駆動の深層強化学習

TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework ( http://arxiv.org/abs/2309.16935v2 )

ライセンス: Link先を確認
Yang Zhao, Jiaxi Yang, Wenbo Wang, Helin Yang, Dusit Niyato(参考訳) 産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。 本稿では,Transformerモデルに基づくニューラルネットワークと深部強化学習(DRL)アルゴリズムの機能を活用し,システムの保守動作を最適化する統合フレームワークを提案する。 本研究ではTransformerモデルを用いて,センサデータの複雑な時間パターンを効果的に捕捉し,機器の残存寿命(RUL)を正確に予測する。 さらに、我々のフレームワークのDRLコンポーネントはコスト効率とタイムリーなメンテナンスのレコメンデーションを提供します。 我々は、NASA C-MPASSデータセット上で、我々のフレームワークの有効性を検証し、RUL予測精度とメンテナンス動作の最適化の両方において、他の一般的な機械学習ベースの手法と比較して大きな進歩を示す。 提案手法は,産業機械システムのための革新的なデータ駆動フレームワークを提供し,機器寿命を正確に予測し,メンテナンススケジュールを最適化し,ダウンタイムとコスト削減を実現する。

Industrial systems demand reliable predictive maintenance strategies to enhance operational efficiency and reduce downtime. This paper introduces an integrated framework that leverages the capabilities of the Transformer model-based neural networks and deep reinforcement learning (DRL) algorithms to optimize system maintenance actions. Our approach employs the Transformer model to effectively capture complex temporal patterns in sensor data, thereby accurately predicting the remaining useful life (RUL) of an equipment. Additionally, the DRL component of our framework provides cost-effective and timely maintenance recommendations. We validate the efficacy of our framework on the NASA C-MPASS dataset, where it demonstrates significant advancements in both RUL prediction accuracy and the optimization of maintenance actions, compared to the other prevalent machine learning-based methods. Our proposed approach provides an innovative data-driven framework for industry machine systems, accurately forecasting equipment lifespans and optimizing maintenance schedules, thereby reducing downtime and cutting costs.
翻訳日:2024-02-22 20:32:13 公開日:2024-02-21
# コンテキスト内学習に人間生成のデモンストレーションは必要か?

Are Human-generated Demonstrations Necessary for In-context Learning? ( http://arxiv.org/abs/2309.14681v4 )

ライセンス: Link先を確認
Rui Li, Guoyin Wang, Jiwei Li(参考訳) 大規模言語モデル(llm)の有望な少数ショット能力にもかかわらず、インコンテキスト学習(icl)の標準パラダイムは、選択されたデモンストレーションに対する感受性の欠点と、これらのデモを生成するための複雑さに苦しんでいる。 本稿では,iclに人為的なデモンストレーションが必要かどうかという根本的な疑問を提起する。 そこで本研究では,人間による実演を含まない自意識促進戦略 (sec) を提案する。 SECのキーポイントは、手作りの例をICLのデモとして使用する代わりに、SECは、最終出力がどの部分で生成されるかに基づいて、まず自身のデモを作成するようにLLMに求めていることだ。 secは柔軟なフレームワークであり、vailla iclとchain-of-thought(cot)の両方に対応できるが、より簡単である。 算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける広範な実験は、手作りのデモンストレーションを必要としないSECがゼロショット学習戦略を著しく上回り、手作りのデモでICLに匹敵する結果を達成していることを示している。 これは、多くのタスクにおいて、現代のLLMは意思決定の能力にのみ依存し、外部のトレーニングデータの必要性を取り除くのに十分なレベルの能力を持っていることを示している。 コードはhttps://github.com/ruili33/secで入手できる。

Despite the promising few-shot ability of large language models (LLMs), the standard paradigm of In-context Learning (ICL) suffers the disadvantages of susceptibility to selected demonstrations and the intricacy to generate these demonstrations. In this paper, we raise the fundamental question that whether human-generated demonstrations are necessary for ICL. To answer this question, we propose self-contemplation prompting strategy (SEC), a paradigm free from human-crafted demonstrations. The key point of SEC is that, instead of using hand-crafted examples as demonstrations in ICL, SEC asks LLMs to first create demonstrations on their own, based on which the final output is generated. SEC is a flexible framework and can be adapted to both the vanilla ICL and the chain-of-thought (CoT), but with greater ease: as the manual-generation process of both examples and rationale can be saved. Extensive experiments in arithmetic reasoning, commonsense reasoning, multi-task language understanding, and code generation benchmarks, show that SEC, which does not require hand-crafted demonstrations, significantly outperforms the zero-shot learning strategy, and achieves comparable results to ICL with hand-crafted demonstrations. This demonstrates that, for many tasks, contemporary LLMs possess a sufficient level of competence to exclusively depend on their own capacity for decision making, removing the need for external training data. Code is available at https://github.com/ruili33/SEC.
翻訳日:2024-02-22 20:31:56 公開日:2024-02-21
# 量子Max-$d$-Cutの近似アルゴリズム

Approximation Algorithms for Quantum Max-$d$-Cut ( http://arxiv.org/abs/2309.10957v2 )

ライセンス: Link先を確認
Charlie Carlson, Zackary Jorquera, Alexandra Kolla, Steven Kordonowy, Stuart Wayland(参考訳) 我々は、よく知られたMax-$d$-Cut問題の量子一般化であるQuantum Max-$d$-Cut問題のアルゴリズム研究を開始する。 量子max-$d$-cut問題には、プロジェクターに付随する期待エネルギーを全ての局所相互作用上の2, $d$-dimensional quditsの反対称部分空間に最大化する量子状態を見つけることが含まれる。 同様に、この問題はクォーディット上でよく知られたハイゼンベルクモデルを一般化したスピングラスモデルである$SU(d)$-Heisenbergモデルによって物理的に動機付けられている。 非自明な性能保証を実現する有界純度を持つ混合状態の積状態解を求める多項式時間ランダム近似アルゴリズムを開発した。 さらに, 量子最大dカット問題に対するアルゴリズム的ギャップインスタンスを $d \geq 3$ で提示することにより, 解析の厳密性を証明する。

We initiate the algorithmic study of the Quantum Max-$d$-Cut problem, a quantum generalization of the well-known Max-$d$-Cut problem. The Quantum Max-$d$-Cut problem involves finding a quantum state that maximizes the expected energy associated with the projector onto the antisymmetric subspace of two, $d$-dimensional qudits over all local interactions. Equivalently, this problem is physically motivated by the $SU(d)$-Heisenberg model, a spin glass model that generalized the well-known Heisenberg model over qudits. We develop a polynomial-time randomized approximation algorithm that finds product-state solutions of mixed states with bounded purity that achieve non-trivial performance guarantees. Moreover, we prove the tightness of our analysis by presenting an algorithmic gap instance for Quantum Max-d-Cut problem with $d \geq 3$.
翻訳日:2024-02-22 20:31:26 公開日:2024-02-21
# PoSE: 位置的スキップワイドトレーニングによるLLMの効率的なコンテキストウィンドウ拡張

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training ( http://arxiv.org/abs/2309.10400v3 )

ライセンス: Link先を確認
Dawei Zhu and Nan Yang and Liang Wang and Yifan Song and Wenhao Wu and Furu Wei and Sujian Li(参考訳) 大きな言語モデル(LLM)は、定義済みのコンテキスト長でトレーニングされ、長い入力を必要とするシナリオでの使用を制限する。 LLMをより長い長さに適合させるためには、通常、この目標長(フル長の微調整)で細調整する必要がある。 列車長を目標長から切り離して効率的なコンテキストウィンドウ拡張を行うため,固定されたコンテキストウィンドウを用いて長い入力をスマートにシミュレートするポジショナル・スキップ・ウィス(PoSE)トレーニングを提案する。 これは、最初に元のコンテキストウィンドウをいくつかのチャンクに分割することで実現され、次に各チャンクの位置インデックスを操作するために個別のスキップバイアス項を設計する。 これらのバイアス項と各チャンクの長さはトレーニング例ごとに変更され、モデルがターゲット長内のすべての位置に対応することができる。 実験結果から,PoSEはフル長微調整に比べてメモリと時間オーバーヘッドを大幅に低減し,性能への影響は最小限であった。 この利点を利用して、2kのトレーニングコンテキストウィンドウを使用してLLaMAモデルを128kトークンに拡張しました。 さらに,PoSE が全ての RoPE ベースの LLM および位置補間戦略と互換性があることを実証的に確認した。 特に、この手法は無限長のサポートが可能であり、推論におけるメモリ使用量によってのみ制限される。 効率的な推論の進行中の進歩により、PoSEは128kを超えるコンテキストウィンドウをさらに拡張できると考えています。

Large Language Models (LLMs) are trained with a pre-defined context length, restricting their use in scenarios requiring long inputs. Previous efforts for adapting LLMs to a longer length usually requires fine-tuning with this target length (Full-length fine-tuning), suffering intensive training cost. To decouple train length from target length for efficient context window extension, we propose Positional Skip-wisE (PoSE) training that smartly simulates long inputs using a fixed context window. This is achieved by first dividing the original context window into several chunks, then designing distinct skipping bias terms to manipulate the position indices of each chunk. These bias terms and the lengths of each chunk are altered for every training example, allowing the model to adapt to all positions within target length. Experimental results show that PoSE greatly reduces memory and time overhead compared with Full-length fine-tuning, with minimal impact on performance. Leveraging this advantage, we have successfully extended the LLaMA model to 128k tokens using a 2k training context window. Furthermore, we empirically confirm that PoSE is compatible with all RoPE-based LLMs and position interpolation strategies. Notably, our method can potentially support infinite length, limited only by memory usage in inference. With ongoing progress for efficient inference, we believe PoSE can further scale the context window beyond 128k.
翻訳日:2024-02-22 20:30:45 公開日:2024-02-21
# 全ラベルを考慮した自然言語推論における事前学習言語モデルの性バイアス評価

Evaluating Gender Bias of Pre-trained Language Models in Natural Language Inference by Considering All Labels ( http://arxiv.org/abs/2309.09697v2 )

ライセンス: Link先を確認
Panatchakorn Anantaprayoon, Masahiro Kaneko, Naoaki Okazaki(参考訳) 差別的ジェンダーバイアスは、複数の言語のための事前訓練された言語モデル(plm)で発見されている。 自然言語推論(NLI)において、既存のバイアス評価手法は、中性などの3つのラベルのうち特定のラベルの予測結果に焦点を当てている。 しかし、ユニークなバイアス付き推論がユニークな予測ラベルと関連付けられているため、そのような評価手法は不正確である。 この制限に対処するため,NLIタスクの3つのラベルをすべて考慮した PLM のバイアス評価手法を提案する。 異なる種類のバイアスを表す3つの評価データグループを作成します。 次に、各データグループの対応するラベル出力に基づいてバイアス測度を定義する。 実験では,nliバイアス尺度のメタ評価手法を導入し,バイアス尺度がベースラインよりもバイアス付き不正確な推論とバイアス付き不正確な推論を区別できることを確認し,より正確なバイアス評価を行う。 英語、日本語、中国語でデータセットを作成すると、複数の言語にまたがるバイアス尺度の適合性も検証する。 最後に、各言語のPLMにおけるバイアス傾向を観察する。 我々の知る限り、我々はまず評価データセットを構築し、日本語と中国語のNLIからPLMのバイアスを測定する。

Discriminatory gender biases have been found in Pre-trained Language Models (PLMs) for multiple languages. In Natural Language Inference (NLI), existing bias evaluation methods have focused on the prediction results of a specific label out of three labels, such as neutral. However, such evaluation methods can be inaccurate since unique biased inferences are associated with unique prediction labels. Addressing this limitation, we propose a bias evaluation method for PLMs that considers all the three labels of NLI task. We create three evaluation data groups that represent different types of biases. Then, we define a bias measure based on the corresponding label output of each data group. In the experiments, we introduce a meta-evaluation technique for NLI bias measures and use it to confirm that our bias measure can distinguish biased, incorrect inferences from non-biased incorrect inferences better than the baseline, resulting in a more accurate bias evaluation. As we create the datasets in English, Japanese, and Chinese, we also validate the compatibility of our bias measure across multiple languages. Lastly, we observe the bias tendencies in PLMs of each language. To our knowledge, we are the first to construct evaluation datasets and measure PLMs' bias from NLI in Japanese and Chinese.
翻訳日:2024-02-22 20:30:18 公開日:2024-02-21
# 読解による大規模言語モデルの適用

Adapting Large Language Models via Reading Comprehension ( http://arxiv.org/abs/2309.09530v2 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Furu Wei(参考訳) ドメイン固有コーパスの事前学習が大規模言語モデルにどのように影響するかを探索し、生コーパスのトレーニングがドメイン知識を生かしたモデルを実現するが、質問応答の促進能力を大幅に損なうことを明らかにした。 読み書きによる人間の学習からインスピレーションを得る-学習知識に基づいて質問に答える能力を向上させる-本研究では、生コーパスを読解テキストに変換する簡単な方法を提案する。 各原文には、その内容に関連する一連のタスクが強化されている。 本手法は,任意の事前学習コーパスに適用可能であり,バイオメディシン,ファイナンス,法則の3分野において,様々なタスクにまたがるパフォーマンスを継続的に向上させる。 特に、我々の7B言語モデルは、BloombergGPT-50Bのような非常に大きなスケールのドメイン固有モデルと競合する性能を実現しています。 さらに、一般ベンチマークにおいても、ドメイン固有の読解テキストがモデルの性能を向上させることを実証し、さらに多くのドメインにまたがる汎用モデルを開発する可能性を示す。 私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されています。

We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension--practice after reading improves the ability to answer questions based on the learned knowledge--we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model's performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data are available at https://github.com/microsoft/LMOps.
翻訳日:2024-02-22 20:29:55 公開日:2024-02-21
# laser: webナビゲーションのためのステートスペース探索を備えたllmエージェント

LASER: LLM Agent with State-Space Exploration for Web Navigation ( http://arxiv.org/abs/2309.08172v2 )

ライセンス: Link先を確認
Kaixin Ma, Hongming Zhang, Hongwei Wang, Xiaoman Pan, Wenhao Yu, Dong Yu(参考訳) 大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。 まともなパフォーマンスを実現する一方で、以前のメソッドは暗黙的にモデルに対してフォワードのみの実行モードを想定しており、環境での推論の仕方をモデルに導くために、oracleの軌道をインコンテキストの例としてのみ提供する。 したがって、モデルがコンテキスト内の例でカバーされていない、より困難なシナリオ、例えばミスを処理できないため、最適化されたパフォーマンスが得られない。 そこで本研究では,対話型タスクを状態空間探索としてモデル化し,llmエージェントがタスクを完了するためのアクションを実行することにより,事前定義された状態群に遷移する手法を提案する。 この定式化はフレキシブルなバックトラックを可能にし、モデルがエラーから容易に回復できるようにする。 我々は,WebShop タスクと amazon.com の両方で,状態空間爆発を伴う LLM Agent の評価を行った。 実験の結果,レーザーは従来の手法を著しく上回り,webナビゲーションタスクにおける人間の性能の差を縮めることがわかった。

Large language models (LLMs) have been successfully adapted for interactive decision-making tasks like web navigation. While achieving decent performance, previous methods implicitly assume a forward-only execution mode for the model, where they only provide oracle trajectories as in-context examples to guide the model on how to reason in the environment. Consequently, the model could not handle more challenging scenarios not covered in the in-context examples, e.g., mistakes, leading to sub-optimal performance. To address this issue, we propose to model the interactive task as state space exploration, where the LLM agent transitions among a pre-defined set of states by performing actions to complete the task. This formulation enables flexible backtracking, allowing the model to recover from errors easily. We evaluate our proposed LLM Agent with State-Space ExploRation (LASER) on both the WebShop task and amazon.com. Experimental results show that LASER significantly outperforms previous methods and closes the gap with human performance on the web navigation task.
翻訳日:2024-02-22 20:29:00 公開日:2024-02-21
# リモートセンシングにおける画像ブラインド劣化のためのマルチスケール一般化収縮閾値ネットワーク

A Multi-scale Generalized Shrinkage Threshold Network for Image Blind Deblurring in Remote Sensing ( http://arxiv.org/abs/2309.07524v2 )

ライセンス: Link先を確認
Yujie Feng, Yin Yang, Xiaohong Fan, Zhengpeng Zhang, and Jianping Zhang(参考訳) リモートセンシング画像は、地球科学の多くの応用に不可欠であるが、センサー技術や複雑な撮像環境の制限により、通常は品質が低下することがある。 これを解決するために、劣化した観測データからシャープで高品質な画像を復元する様々なリモートセンシング画像デブロアリング法を開発した。 しかしながら、従来のモデルベースのデブロアリング手法は、通常、複雑なアプリケーションで扱うのが難しい事前定義された手作りの前提を必要とする。 一方、深層学習に基づくデブロワーリング法は、透明性と解釈性に欠けるブラックボックスと見なされることが多い。 本研究では,縮小しきい値の交代反復を利用するブラインドデブラリング学習フレームワークを提案する。 このフレームワークは、ネットワーク設計の理論的基盤として、ぼやけたカーネルとイメージを更新する。 さらに,ボケカーネル再構成の精度を向上させるために,学習可能なボケカーネル近距離マッピングモジュールを提案する。 さらに,画像領域に一般化された縮小しきい値とマルチスケールの事前特徴抽出ブロックを組み合わせた深部近距離マッピングモジュールを提案する。 このモジュールはまた、事前情報の重要性を適応的に学習し、事前項の柔軟性と堅牢性を改善し、手作り画像の先行項に類似した制限を回避するための注意機構も備えている。 その結果,画像復元を向上する深部幾何学的先行特徴の学習に特化して,MGSTNet(multi-scale generalized shrinkage threshold network)を設計した。 実・合成リモートセンシング画像データセットによる実験結果から,既存のデブロアリング法と比較してMGSTNetフレームワークが優れていることが示された。

Remote sensing images are essential for many applications of the earth's sciences, but their quality can usually be degraded due to limitations in sensor technology and complex imaging environments. To address this, various remote sensing image deblurring methods have been developed to restore sharp and high-quality images from degraded observational data. However, most traditional model-based deblurring methods usually require predefined {hand-crafted} prior assumptions, which are difficult to handle in complex applications. On the other hand, deep learning-based deblurring methods are often considered as black boxes, lacking transparency and interpretability. In this work, we propose a new blind deblurring learning framework that utilizes alternating iterations of shrinkage thresholds. This framework involves updating blurring kernels and images, with a theoretical foundation in network design. Additionally, we propose a learnable blur kernel proximal mapping module to improve the accuracy of the blur kernel reconstruction. Furthermore, we propose a deep proximal mapping module in the image domain, which combines a generalized shrinkage threshold with a multi-scale prior feature extraction block. This module also incorporates an attention mechanism to learn adaptively the importance of prior information, improving the flexibility and robustness of prior terms, and avoiding limitations similar to hand-crafted image prior terms. Consequently, we design a novel multi-scale generalized shrinkage threshold network (MGSTNet) that focuses specifically on learning deep geometric prior features to enhance image restoration. Experimental results on real and synthetic remote sensing image datasets demonstrate the superiority of our MGSTNet framework compared to existing deblurring methods.
翻訳日:2024-02-22 20:27:59 公開日:2024-02-21
# 効率的な水中データ解析のためのクロスドメイン音声認識

Cross-domain Sound Recognition for Efficient Underwater Data Analysis ( http://arxiv.org/abs/2309.03451v2 )

ライセンス: Link先を確認
Jeongsoo Park, Dong-Gyun Han, Hyoung Sul La, Sangmin Lee, Yoonchang Han, and Eun-Jin Yang(参考訳) 本稿では,広範囲の非水中音(aerial)を訓練したモデルを用いて,大規模水中音響データの解析を行うための新しい深層学習手法を提案する。 大量の水中データをラベル付けすることの課題を認識し、この労働集約的な手順を加速するための2つの方法論を提案する。 我々のアプローチの第一部は、空中音響認識モデルの特徴ベクトルを用いた水中データのpcaおよびumap可視化である。 これにより、データを2次元空間にクラスタリングし、これらのクラスタ内のポイントを聴き、その特徴を理解することができます。 この革新的な方法は、さらなるトレーニングのために候補ラベルを選択するプロセスを単純化する。 第2部では,選択した水中データと非水中データセットの両方を用いてニューラルネットワークモデルをトレーニングする。 一般的な水中音であるエアガン音の認識のためのモデルの精度, リコール, F1 スコアを測定するために, 定量的解析を行った。 モデルによるF1スコアは84.3%を超え, 水中音響データ解析におけるアプローチの有効性を示した。 本稿では,水中データ解析に要する作業量を削減するための重要な可能性を示し,クロスドメインデータ解析の分野における新たな可能性を開く。

This paper presents a novel deep learning approach for analyzing massive underwater acoustic data by leveraging a model trained on a broad spectrum of non-underwater (aerial) sounds. Recognizing the challenge in labeling vast amounts of underwater data, we propose a two-fold methodology to accelerate this labor-intensive procedure. The first part of our approach involves PCA and UMAP visualization of the underwater data using the feature vectors of an aerial sound recognition model. This enables us to cluster the data in a two dimensional space and listen to points within these clusters to understand their defining characteristics. This innovative method simplifies the process of selecting candidate labels for further training. In the second part, we train a neural network model using both the selected underwater data and the non-underwater dataset. We conducted a quantitative analysis to measure the precision, recall, and F1 score of our model for recognizing airgun sounds, a common type of underwater sound. The F1 score achieved by our model exceeded 84.3%, demonstrating the effectiveness of our approach in analyzing underwater acoustic data. The methodology presented in this paper holds significant potential to reduce the amount of labor required in underwater data analysis and opens up new possibilities for further research in the field of cross-domain data analysis.
翻訳日:2024-02-22 20:27:13 公開日:2024-02-21
# 手術用データ生成のための非ペア画像翻訳における意味的一貫性の検討

Exploring Semantic Consistency in Unpaired Image Translation to Generate Data for Surgical Applications ( http://arxiv.org/abs/2309.03048v3 )

ライセンス: Link先を確認
Danush Kumar Venkatesh, Dominik Rivoir, Micha Pfeiffer, Fiona Kolbinger, Marius Distler, J\"urgen Weitz, Stefanie Speidel(参考訳) 手術用コンピュータビジョンアプリケーションでは,データプライバシーの懸念と専門家のアノテーションの必要性から,ラベル付きトレーニングデータの取得が困難である。 合成画像をリアルな領域に翻訳することで,大規模な注釈付きデータセットを自動生成する。 しかし、入力画像と変換画像の間の構造と意味的一貫性を維持することは、主にドメインの意味的特徴に分布的ミスマッチがある場合に、大きな課題となる。 本研究は外科的応用において適切なデータを生成するための非ペア画像変換法を実験的に検討し,意味的一貫性に着目した。 2つの難易度の高い手術用データセットと下流意味セグメンテーションタスクにおいて,様々な最先端画像翻訳モデルを広範囲に評価した。 構造相似性損失と対照的学習の単純な組み合わせは、最も有望な結果をもたらす。 定量的に、このアプローチによって生成されたデータは、セマンティック一貫性が高く、トレーニングデータとしてより効果的に使用できることを示す。

In surgical computer vision applications, obtaining labeled training data is challenging due to data-privacy concerns and the need for expert annotation. Unpaired image-to-image translation techniques have been explored to automatically generate large annotated datasets by translating synthetic images to the realistic domain. However, preserving the structure and semantic consistency between the input and translated images presents significant challenges, mainly when there is a distributional mismatch in the semantic characteristics of the domains. This study empirically investigates unpaired image translation methods for generating suitable data in surgical applications, explicitly focusing on semantic consistency. We extensively evaluate various state-of-the-art image translation models on two challenging surgical datasets and downstream semantic segmentation tasks. We find that a simple combination of structural-similarity loss and contrastive learning yields the most promising results. Quantitatively, we show that the data generated with this approach yields higher semantic consistency and can be used more effectively as training data.The code is available at https://gitlab.com/nct_tso_public/constructs.
翻訳日:2024-02-22 20:26:54 公開日:2024-02-21
# 時系列因果グラフの抽象化による総効果の識別可能性

Identifiability of total effects from abstractions of time series causal graphs ( http://arxiv.org/abs/2310.14691v3 )

ライセンス: Link先を確認
Charles K. Assaad, Emilie Devijver (LIG, UGA), Eric Gaussier (LIG, UGA), Gregor G\"ossler (LIG, SPADES), Anouar Meynaoui (IRMAR, UR2)(参考訳) 本稿では,システム因果グラフを抽象化した観測時系列からの介入による全効果の同定可能性の問題について検討する。 具体的には,すべてのラグ付き因果関係を共用するがラグ付きと瞬時関係を区別する拡張要約因果グラフと,因果関係間のラグを示さない要約因果グラフの2つの抽象化を考察した。 総和効果は拡張された総和因果グラフにおいて常に同定可能であり,総和因果グラフの識別性に必要かつ十分なグラフィカル条件を提供する。 さらに,特定可能な場合の総効果を推定するための調整セットも提供する。

We study the problem of identifiability of the total effect of an intervention from observational time series only given an abstraction of the causal graph of the system. Specifically, we consider two types of abstractions: the extended summary causal graph which conflates all lagged causal relations but distinguishes between lagged and instantaneous relations; and the summary causal graph which does not give any indication about the lag between causal relations. We show that the total effect is always identifiable in extended summary causal graphs and we provide necessary and sufficient graphical conditions for identifiability in summary causal graphs. Furthermore, we provide adjustment sets allowing to estimate the total effect whenever it is identifiable.
翻訳日:2024-02-22 20:18:29 公開日:2024-02-21
# 拡散モデルにおける再現性と一貫性の出現

The Emergence of Reproducibility and Consistency in Diffusion Models ( http://arxiv.org/abs/2310.05264v3 )

ライセンス: Link先を確認
Huijie Zhang, Jinfan Zhou, Yifu Lu, Minzhe Guo, Peng Wang, Liyue Shen, Qing Qu(参考訳) そこで本研究では,同一の開始雑音入力と決定論的サンプラーが与えられると,異なる拡散モデルが著しく類似した出力を生成するという,拡散モデルの興味深く,広く普及する現象について検討する。 拡散モデルフレームワークやモデルアーキテクチャ、トレーニング手順に関わらず、異なる拡散モデルが一貫して同じデータ分布とスコアリング関数に達することを示唆し、包括的な実験を通じてこの現象を確認した。 さらに注目すべきは、拡散モデルがトレーニングデータサイズの影響を受けやすい分布を学習していることである。 これは、モデル再現性が2つの異なる訓練体制に現れるという事実に支えられている。 (i)拡散モデルがトレーニングデータ分布に過剰に適合する「記憶レジーム」、及び (2)モデルが基礎となるデータ分布を学習する「一般化体制」。 また, この性質は, 条件付き使用, 逆問題解決, モデル微調整など, 拡散モデルの多くの変種に一般化されることが示唆された。 最後に,我々の研究は,今後の研究に多くの興味深い理論的疑問を提起し,トレーニング効率,モデルプライバシ,拡散モデルの生成制御に関する実践的意義を強調する。

In this work, we investigate an intriguing and prevalent phenomenon of diffusion models which we term as "consistent model reproducibility": given the same starting noise input and a deterministic sampler, different diffusion models often yield remarkably similar outputs. We confirm this phenomenon through comprehensive experiments, implying that different diffusion models consistently reach the same data distribution and scoring function regardless of diffusion model frameworks, model architectures, or training procedures. More strikingly, our further investigation implies that diffusion models are learning distinct distributions affected by the training data size. This is supported by the fact that the model reproducibility manifests in two distinct training regimes: (i) "memorization regime", where the diffusion model overfits to the training data distribution, and (ii) "generalization regime", where the model learns the underlying data distribution. Our study also finds that this valuable property generalizes to many variants of diffusion models, including those for conditional use, solving inverse problems, and model fine-tuning. Finally, our work raises numerous intriguing theoretical questions for future investigation and highlights practical implications regarding training efficiency, model privacy, and the controlled generation of diffusion models.
翻訳日:2024-02-22 20:18:16 公開日:2024-02-21
# GoLLIE: アノテーションガイドラインの改善によるゼロショット情報抽出

GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction ( http://arxiv.org/abs/2310.03668v4 )

ライセンス: Link先を確認
Oscar Sainz, Iker Garc\'ia-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre(参考訳) 大規模な言語モデル(llm)と命令チューニングが組み合わさって、未認識のタスクに一般化する際に大きな進歩を遂げた。 しかし、情報抽出(ie)では成功せず、タスク固有のモデルに遅れを取っている。 通常、IEタスクは、タスクを記述し、人間に例を示す複雑なガイドラインによって特徴づけられる。 このような情報を活用する以前の試みは、最大のモデルでも、最初からガイドラインに従うことができないため、失敗している。 本稿では, ガイドラインに準拠した微調整により, 目に見えないIEタスクのゼロショット結果を改善するモデルであるGoLLIE Guideline-following Large Language Model for IEを提案する。

Large Language Models (LLMs) combined with instruction tuning have made significant progress when generalizing to unseen tasks. However, they have been less successful in Information Extraction (IE), lagging behind task-specific models. Typically, IE tasks are characterized by complex annotation guidelines which describe the task and give examples to humans. Previous attempts to leverage such information have failed, even with the largest models, as they are not able to follow the guidelines out-of-the-box. In this paper we propose GoLLIE Guideline-following Large Language Model for IE), a model able to improve zero-shot results on unseen IE tasks by virtue of being fine-tuned to comply with annotation guidelines.
翻訳日:2024-02-22 20:17:55 公開日:2024-02-21
# データフリー量子化のためのロバストネス誘導画像合成

Robustness-Guided Image Synthesis for Data-Free Quantization ( http://arxiv.org/abs/2310.03661v3 )

ライセンス: Link先を確認
Jianhong Bai, Yuchen Yang, Huanpeng Chu, Hualiang Wang, Zuozhu Liu, Ruizhe Chen, Xiaoxuan He, Lianrui Mu, Chengfei Cai, Haoji Hu(参考訳) 量子化はモデル圧縮の有望な方向として現れている。 近年,データフリーな量子化は,実際のトレーニングデータに代わるイメージを合成するプライバシー問題を回避するための有望な手法として広く研究されている。 既存の手法では、合成画像の信頼性を確保するために分類損失を用いる。 残念なことに、これらの画像が事前訓練されたモデルによってうまく分類されているとしても、それでも低セマンティクスと均質化の問題に苦しんでいる。 直感的には、これらの低セマンティクス画像は摂動に敏感であり、事前訓練されたモデルは、生成器が低セマンティクスのイメージを合成する際に一貫性のない出力を持つ傾向がある。 そこで本研究では,合成画像のセマンティクスを豊かにし,画像多様性を向上させるための簡易かつ効果的な手法であるロバストネス誘導画像合成(ris)を提案する。 具体的には、まず入力とモデル重みの摂動を導入し、次に摂動前後の機能および予測レベルでの不整合メトリクスを定義する。 2つのレベルでの一貫性の欠如に基づいて,合成画像の意味性を高めるためのロバスト性最適化目標を考案する。 さらに,ラベル空間に小さな相関関係を持つ画像の合成をジェネレータに強制することで,多様性を意識するアプローチも行う。 RISにより、データフリー量子化の様々な設定に対して最先端の性能を実現し、他のデータフリー圧縮タスクにも拡張できる。

Quantization has emerged as a promising direction for model compression. Recently, data-free quantization has been widely studied as a promising method to avoid privacy concerns, which synthesizes images as an alternative to real training data. Existing methods use classification loss to ensure the reliability of the synthesized images. Unfortunately, even if these images are well-classified by the pre-trained model, they still suffer from low semantics and homogenization issues. Intuitively, these low-semantic images are sensitive to perturbations, and the pre-trained model tends to have inconsistent output when the generator synthesizes an image with poor semantics. To this end, we propose Robustness-Guided Image Synthesis (RIS), a simple but effective method to enrich the semantics of synthetic images and improve image diversity, further boosting the performance of downstream data-free compression tasks. Concretely, we first introduce perturbations on input and model weight, then define the inconsistency metrics at feature and prediction levels before and after perturbations. On the basis of inconsistency on two levels, we design a robustness optimization objective to enhance the semantics of synthetic images. Moreover, we also make our approach diversity-aware by forcing the generator to synthesize images with small correlations in the label space. With RIS, we achieve state-of-the-art performance for various settings on data-free quantization and can be extended to other data-free compression tasks.
翻訳日:2024-02-22 20:17:44 公開日:2024-02-21
# 冗長性低減による視覚条件付き言語生成の迅速学習

Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction ( http://arxiv.org/abs/2310.03291v3 )

ライセンス: Link先を確認
Yiren Jian, Tingkai Liu, Yunzhe Tao, Chunhui Zhang, Soroush Vosoughi, Hongxia Yang(参考訳) 本稿では,凍結事前学習型大言語モデル(LLMs)を用いて,視覚条件付き言語生成モデルの事前学習を目的とした合理化フレームワークである$\text{EVL}_{\text{Gen}}$を紹介する。 視覚言語事前学習(VLP)の従来のアプローチは、一般的に2段階の最適化プロセスを含む: 汎用的な視覚言語表現学習に特化した初期資源集約型フェーズであり、関連する視覚特徴の抽出と統合に重点を置いている。 続くフェーズでは、視覚と言語的モダリティのエンドツーエンドのアライメントを強調している。 BLIP-2型モデルの単段階学習によるモデル崩壊を回避しつつ、トレーニング中に類似した視覚トークンを徐々にマージすることで、計算要求の第一訓練段階をバイパスする。 段階的なマージ処理は、意味豊かさを保ちながら視覚情報を効果的に凝縮し、性能を損なうことなく迅速に収束する。 実験の結果,本手法は視覚言語モデルの学習を5倍に促進し,全体の性能に顕著な影響を与えないことがわかった。 さらに,本モデルでは1/10のデータのみを用いて,現在の視覚言語モデルの性能ギャップをかなり狭めていることを示す。 最後に,映像テキストモデルが,新たなソフトアテインティブなテンポラルトークンコンテキスト化モジュールを通じて,ビデオコンディショニング言語生成タスクにシームレスに適応する方法について紹介する。 コードは \url{https://github.com/yiren-jian/evlgen} で入手できる。

In this paper, we introduce $\text{EVL}_{\text{Gen}}$, a streamlined framework designed for the pre-training of visually conditioned language generation models with high computational demands, utilizing frozen pre-trained large language models (LLMs). The conventional approach in vision-language pre-training (VLP) typically involves a two-stage optimization process: an initial resource-intensive phase dedicated to general-purpose vision-language representation learning, focused on extracting and consolidating relevant visual features. This is followed by a subsequent phase that emphasizes end-to-end alignment between visual and linguistic modalities. Our novel one-stage, single-loss framework bypasses the computationally demanding first training stage by gradually merging similar visual tokens during training, while avoiding model collapse caused by single-stage training of BLIP-2 type models. The gradual merging process effectively condenses visual information while preserving semantic richness, resulting in rapid convergence without compromising performance. Our experimental findings demonstrate that our approach accelerates the training of vision-language models by a factor of 5 without a noticeable impact on overall performance. Furthermore, we illustrate that our models significantly narrow the performance gap to current vision-language models using only 1/10 of the data. Finally, we showcase how our image-text models can seamlessly adapt to video-conditioned language generation tasks through novel soft attentive temporal token contextualizing modules. Code is available at \url{https://github.com/yiren-jian/EVLGen}.
翻訳日:2024-02-22 20:17:18 公開日:2024-02-21
# 負距離カーネルを用いたMDDの勾配流れに基づく後方サンプリング

Posterior Sampling Based on Gradient Flows of the MMD with Negative Distance Kernel ( http://arxiv.org/abs/2310.03054v2 )

ライセンス: Link先を確認
Paul Hagemann, Johannes Hertrich, Fabian Altekr\"uger, Robert Beinert, Jannis Chemseddine, Gabriele Steidl(参考訳) 本稿では,後方サンプリングと条件生成モデルのための負距離カーネルを用いたMMDの条件付き流れを提案する。 このmmdはエネルギー距離としても知られ、スライシングやソートによる効率的な計算のようないくつかの利点がある。 離散的ワッサースタイン勾配流を用いた基底真理と観測の合同分布を近似し,後方分布に対する誤差を定式化する。 さらに、我々の粒子流は確かに適切な関数のワッサーシュタイン勾配流であることを示す。 本手法のパワーは, 条件付き画像生成や超解像, インペインティング, ctなどの逆問題など, 低線量, 限定アングル設定の数値例で示される。

We propose conditional flows of the maximum mean discrepancy (MMD) with the negative distance kernel for posterior sampling and conditional generative modeling. This MMD, which is also known as energy distance, has several advantageous properties like efficient computation via slicing and sorting. We approximate the joint distribution of the ground truth and the observations using discrete Wasserstein gradient flows and establish an error bound for the posterior distributions. Further, we prove that our particle flow is indeed a Wasserstein gradient flow of an appropriate functional. The power of our method is demonstrated by numerical examples including conditional image generation and inverse problems like superresolution, inpainting and computed tomography in low-dose and limited-angle settings.
翻訳日:2024-02-22 20:16:31 公開日:2024-02-21
# CLIPは優れた教師である: 帰納的ゼロショットセマンティックセマンティックセグメンテーションのための新しい学習フレームワーク

CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2310.02296v2 )

ライセンス: Link先を確認
Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Xu Zheng, Hiroshi Murase(参考訳) 一般化されたゼロショットセマンティクスセグメンテーションは、見たカテゴリと見えないカテゴリの両方を、見たカテゴリの監督の下でのみセグメンテーションすることを目的としている。 これを解決するために既存の手法では、優れたゼロショット性能を得る大規模ビジョン言語モデル(VLM)を採用している。 しかしながら、VLMは分類タスク用に設計されているため、VLMを直接適応させることは、準最適性能をもたらす可能性がある。 これにより、VLMと組み合わせたり、新しいモジュールを挿入したりすることなく、ゼロショットおよびオープンボキャブラリタスクに適用されるクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現する、シンプルで効果的なトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic Segmentation)を提案する。 CLIP-ZSSはGlobal Learning Module (GLM)とPixel Learning Module (PLM)の2つの主要なモジュールで構成されている。 GLMは、CLIPビジュアルエンコーダからの知識を、同じ画像のイメージエンコーダからCLSトークンと高密度特徴を引き抜いて、他を押し離すことによって探索する。 また、見当たらないカテゴリを判別する能力を高めるために、擬似ラベルと重み生成からなるplmを設計する。 意味的に識別された擬似ラベルを生成するために, マスク融合を用いたマルチスケールK-Meansを提案する。 擬似重み生成では、未注釈領域の擬似意味特徴を生成するシンセサイザーを導入する。 3つのベンチマーク実験では、SOTA法と比較して大きな性能向上を示した。

Generalized Zero-shot Semantic Segmentation aims to segment both seen and unseen categories only under the supervision of the seen ones. To tackle this, existing methods adopt the large-scale Vision Language Models (VLMs) which obtain outstanding zero-shot performance. However, as the VLMs are designed for classification tasks, directly adapting the VLMs may lead to sub-optimal performance. Consequently, we propose CLIP-ZSS (Zero-shot Semantic Segmentation), a simple but effective training framework that enables any image encoder designed for closed-set segmentation applied in zero-shot and open-vocabulary tasks in testing without combining with VLMs or inserting new modules. CLIP-ZSS consists of two key modules: Global Learning Module (GLM) and Pixel Learning Module (PLM). GLM is proposed to probe the knowledge from the CLIP visual encoder by pulling the CLS token and the dense features from the image encoder of the same image and pushing others apart. Moreover, to enhance the ability to discriminate unseen categories, PLM consisting of pseudo labels and weight generation is designed. To generate semantically discriminated pseudo labels, a multi-scale K-Means with mask fusion working on the dense tokens is proposed. In pseudo weight generation, a synthesizer generating pseudo semantic features for the unannotated area is introduced. Experiments on three benchmarks show large performance gains compared with SOTA methods.
翻訳日:2024-02-22 20:15:58 公開日:2024-02-21
# 繰り返しからの文脈内学習の理解

Understanding In-Context Learning from Repetitions ( http://arxiv.org/abs/2310.00297v3 )

ライセンス: Link先を確認
Jianhao Yan, Jin Xu, Chiyu Song, Chenming Wu, Yafu Li, Yue Zhang(参考訳) 本稿では,Large Language Models (LLMs) における文脈内学習を支える概念的メカニズムについて考察する。 我々の研究は、表面繰り返しのレンズを通してコンテキスト内学習を調べることによって、新しい視点を提供する。 テキスト生成における表層特徴の役割を定量的に検討し,文脈的共起に基づいて2つのトークン間の関係を強める原理である<emph{token co-occurrence reinforcement} の存在を実証的に確立する。 これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。 本稿では,文脈内学習とその潜在的な限界を理解する上で重要な貢献をし,このエキサイティングな能力について新たな視点を提供する。

This paper explores the elusive mechanism underpinning in-context learning in Large Language Models (LLMs). Our work provides a novel perspective by examining in-context learning via the lens of surface repetitions. We quantitatively investigate the role of surface features in text generation, and empirically establish the existence of \emph{token co-occurrence reinforcement}, a principle that strengthens the relationship between two tokens based on their contextual co-occurrences. By investigating the dual impacts of these features, our research illuminates the internal workings of in-context learning and expounds on the reasons for its failures. This paper provides an essential contribution to the understanding of in-context learning and its potential limitations, providing a fresh perspective on this exciting capability.
翻訳日:2024-02-22 20:15:04 公開日:2024-02-21
# ToRA:数学的問題解決のためのツール統合推論エージェント

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving ( http://arxiv.org/abs/2309.17452v4 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデルは様々な言語タスクにおいて大きな進歩を遂げてきたが、それでも複雑な数学に苦しむ。 本稿では,自然言語推論と外部ツール(例えば,計算ライブラリやシンボリックソルバ)をシームレスに統合することにより,言語の分析能力とツールの計算効率を両立させることにより,難解な数学的問題を解決するための一連のツール統合推論エージェントを提案する。 toraをトレーニングするために,数量データセットの対話的ツール利用トラジェクタをキュレーションし,アノテーションに模倣学習を適用し,モデルの推論行動をさらに洗練するための出力空間シェーピングを提案する。 結果として、toraモデルは、すべてのスケールで10の数学的推論データセットでオープンソースモデルを大きく上回り、平均で13%-19%の絶対的な改善が行われた。 特に、ToRA-7Bは競合レベルのデータセットMATHで44.6%に達し、最高のオープンソースモデルであるWizardMath-70Bを22%上回った。 また、TORA-Code-34BはMATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れており、GPT-4のプログラムでの問題解決と競合する。 さらに,数学的推論のためのツールインタラクションの利点と課題を総合的に分析し,今後の研究に有用な知見を提供する。

Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models' reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-Code-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4's CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.
翻訳日:2024-02-22 20:14:50 公開日:2024-02-21
# マルチパースペクティブ・セルフコンシスタンスによるコーディングにおける大規模言語モデルの拡張

Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency ( http://arxiv.org/abs/2309.17272v2 )

ライセンス: Link先を確認
Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan(参考訳) 大規模言語モデル(LLM)はコード生成において顕著な能力を示した。 しかし、単一の試みで正しいソリューションを生成することは依然として課題である。 以前の作業では、ソフトウェアエンジニアリングの検証プロパティを使用して、多数決的な方法でソリューションの検証と再選を行っている。 しかし、生成した検証プロパティがソリューションよりも優れた品質を持つという彼らの背後にある仮定は、必ずしも成り立つとは限らない。 本稿では,llmsの推論過程の異なる視点として等しく扱う。 複数視点からの出力の相互および内部整合性を考慮したMPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。 具体的には、llmに対して、ソリューション、仕様、テストケースという3つの視点から、さまざまなアウトプットを生成するように促します。 一貫性の2つの測度関数により、一貫性情報と一貫性情報の両方をグラフに埋め込む。 解の最適選択は、そのグラフの分析に基づいて決定される。 MPSCは、HumanEval (+15.91%)、MBPP (+6.43%)、CodeContests (+9.37%)など、GPT-4を超える様々なベンチマークで基礎モデル(ChatGPT)の性能を大幅に向上させる。

Large language models (LLMs) have exhibited remarkable ability in code generation. However, generating the correct solution in a single attempt still remains a challenge. Prior works utilize verification properties in software engineering to verify and re-rank solutions in a majority voting manner. But the assumption behind them that generated verification properties have better qualities than solutions may not always hold. In this paper, we treat them equally as different perspectives of LLMs' reasoning processes. We propose the Multi-Perspective Self-Consistency (MPSC) framework incorporating both inter- and intra-consistency across outputs from multiple perspectives. Specifically, we prompt LLMs to generate diverse outputs from three perspectives, Solution, Specification and Test case, constructing a 3-partite graph. With two measure functions of consistency, we embed both inter- and intra-consistency information into the graph. The optimal choice of solutions is then determined based on analysis in the graph. MPSC significantly boosts performance of foundation models (ChatGPT in this paper) on various benchmarks, including HumanEval (+15.91%), MBPP (+6.43%) and CodeContests (+9.37%), even surpassing GPT-4.
翻訳日:2024-02-22 20:14:07 公開日:2024-02-21
# anytext:多言語視覚テキストの生成と編集

AnyText: Multilingual Visual Text Generation And Editing ( http://arxiv.org/abs/2311.03054v5 )

ライセンス: Link先を確認
Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie(参考訳) 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。 現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。 この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。 anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。 前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。 後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。 テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。 anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。 AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。 広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。 さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。 anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。 私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
翻訳日:2024-02-22 20:06:41 公開日:2024-02-21
# 言語シフトによる継続的な学習

Continual Learning Under Language Shift ( http://arxiv.org/abs/2311.01200v2 )

ライセンス: Link先を確認
Evangelia Gogoulou, Timoth\'ee Lesort, Magnus Boman, Joakim Nivre(参考訳) 最近の言語モデルの事前トレーニングのデータとモデルスケールの増加は、大きなトレーニングコストを生み出した。 新しいデータが時間とともに利用可能になるシナリオでは、完全に再トレーニングするのではなく、モデルを更新することが大きな利益をもたらす。 我々は、新しいデータが新しい言語から来るとき、言語モデルを更新することの長所と短所について研究する。 単言語英語モデルから始めて,デンマーク語,アイスランド語,ノルウェー語からのデータを段階的に追加して,3つの異なるモデルサイズにおいて,事前学習順序と特性にどのような影響があるかを検討する。 以上の結果から,前方移動は言語の順序にほぼ依存するが,後方移動は新言語の順序や特性によっては肯定的あるいは否定的であることが示された。 言語汚染と構文的類似性の組み合わせが,我々の結果に最も適していることを見出した。

The recent increase in data and model scale for language model pre-training has led to huge training costs. In scenarios where new data become available over time, updating a model instead of fully retraining it would therefore provide significant gains. We study the pros and cons of updating a language model when new data comes from new languages -- the case of continual learning under language shift. Starting from a monolingual English language model, we incrementally add data from Danish, Icelandic, and Norwegian to investigate how forward and backward transfer effects depend on pre-training order and characteristics of languages, for three different model sizes. Our results show that, while forward transfer is largely positive and independent of language order, backward transfer can be positive or negative depending on the order and characteristics of new languages. We explore a number of potentially explanatory factors and find that a combination of language contamination and syntactic similarity best fits our results.
翻訳日:2024-02-22 20:06:10 公開日:2024-02-21
# AISを用いたマルチパス長期船軌道予測のための確率的特徴増強

Probabilistic Feature Augmentation for AIS-Based Multi-Path Long-Term Vessel Trajectory Forecasting ( http://arxiv.org/abs/2310.18948v4 )

ライセンス: Link先を確認
Gabriel Spadon, Jay Kumar, Derek Eden, Josh van Berkel, Tom Foster, Matthew Smith, Sarah Vela, Romina Gehrmann, Amilcar Soares, Ronan Fablet, Stan Matwin and Ronald Pelot(参考訳) 海洋輸送は世界的な経済成長を達成する上で最重要であり、持続可能性と絶滅危惧種の保護に同時に生態的義務を負う。 この点において、自動識別システム(ais)データは、船舶移動に関するリアルタイムストリーミングデータを提供することで、交通監視の強化に重要な役割を果たす。 本研究では,AISデータ系列から長期の船舶軌道を予測することにより,船体衝突を防止するためのAISデータについて検討する。 そこで我々は, 双方向長短期記憶ネットワーク(Bi-LSTM)を用いたエンコーダ・デコーダモデルアーキテクチャを開発し, 入力として1~3時間AISデータを用いて, 次の12時間の船舶軌道を予測した。 我々は,各軌道の潜在的な経路や目的地を示す歴史的AISデータから構築した確率的特徴をモデルに提供する。 このモデルでは,空間的特徴学習における畳み込みレイヤと,時間的特徴学習における時系列の最近の時間ステップの重要性を増大させる位置認識型注意機構を活用することで,船の軌道を予測する。 確率的特徴は、それぞれの特徴タイプに対して約85%と75%のF1スコアを持ち、ニューラルネットワークへの情報拡張の有効性を示す。 我々は、北大西洋右クジラ(NARW)の生息地として知られるセントローレンス湾で、我々のモデルを検証した。 我々のモデルは、様々な技術と特徴を用いて、高いR2スコアを98%以上達成した。 旋回や経路選択の間に複雑な決定をすることができるため、他のアプローチの中でも際立っている。 本研究は,海洋生物種の保全のためのデータ工学および軌道予測モデルの可能性を明らかにする。

Maritime transportation is paramount in achieving global economic growth, entailing concurrent ecological obligations in sustainability and safeguarding endangered marine species, most notably preserving large whale populations. In this regard, the Automatic Identification System (AIS) data plays a significant role by offering real-time streaming data on vessel movement, allowing enhanced traffic monitoring. This study explores using AIS data to prevent vessel-to-whale collisions by forecasting long-term vessel trajectories from engineered AIS data sequences. For such a task, we have developed an encoder-decoder model architecture using Bidirectional Long Short-Term Memory Networks (Bi-LSTM) to predict the next 12 hours of vessel trajectories using 1 to 3 hours of AIS data as input. We feed the model with probabilistic features engineered from historical AIS data that refer to each trajectory's potential route and destination. The model then predicts the vessel's trajectory, considering these additional features by leveraging convolutional layers for spatial feature learning and a position-aware attention mechanism that increases the importance of recent timesteps of a sequence during temporal feature learning. The probabilistic features have an F1 Score of approximately 85% and 75% for each feature type, respectively, demonstrating their effectiveness in augmenting information to the neural network. We test our model on the Gulf of St. Lawrence, a region known to be the habitat of North Atlantic Right Whales (NARW). Our model achieved a high R2 score of over 98% using various techniques and features. It stands out among other approaches as it can make complex decisions during turnings and path selection. Our study highlights the potential of data engineering and trajectory forecasting models for marine life species preservation.
翻訳日:2024-02-22 20:05:55 公開日:2024-02-21
# データ分布の比推定による離散拡散モデル

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution ( http://arxiv.org/abs/2310.16834v2 )

ライセンス: Link先を確認
Aaron Lou, Chenlin Meng, Stefano Ermon(参考訳) 多くの生成的モデリングタスクにおける画期的な性能にもかかわらず、拡散モデルは自然言語のような離散データ領域では不足している。 重要な点として、標準拡散モデルは、スコアマッチングの確立された理論に依存しているが、これを離散構造に一般化する努力は、同じ経験的成果を得られていない。 本研究では,スコアマッチングを離散空間に自然に拡張し,シームレスに統合することで離散拡散モデルを構築し,性能を著しく向上させる新たな損失であるスコアエントロピーを提案することで,このギャップを埋める。 実験では,標準言語モデリングタスクにおいて,Score Entropy Discrete Diffusion Model (SEDD) を検証した。 同等のモデルサイズでは、SEDDは既存の言語拡散パラダイム(パープレキシティを25ドル~75ドル\%削減)を破り、特にGPT-2よりも優れた自動回帰モデルと競合する。 さらに、自己回帰型mdoelと比較して、seddは温度スケーリングのような分散アニーリング技術を必要としない忠実なテキストを生成する(約6ドルから8ドル)。

Despite their groundbreaking performance for many generative modeling tasks, diffusion models have fallen short on discrete data domains such as natural language. Crucially, standard diffusion models rely on the well-established theory of score matching, but efforts to generalize this to discrete structures have not yielded the same empirical gains. In this work, we bridge this gap by proposing score entropy, a novel loss that naturally extends score matching to discrete spaces, integrates seamlessly to build discrete diffusion models, and significantly boosts performance. Experimentally, we test our Score Entropy Discrete Diffusion models (SEDD) on standard language modeling tasks. For comparable model sizes, SEDD beats existing language diffusion paradigms (reducing perplexity by $25$-$75$\%) and is competitive with autoregressive models, in particular outperforming GPT-2. Furthermore, compared to autoregressive mdoels, SEDD generates faithful text without requiring distribution annealing techniques like temperature scaling (around $6$-$8\times$ better generative perplexity than un-annealed GPT-2), can trade compute and quality (similar quality with $32\times$ fewer network evaluations), and enables controllable infilling (matching nucleus sampling quality while enabling other strategies besides left to right prompting).
翻訳日:2024-02-22 20:05:24 公開日:2024-02-21
# 量子ドットにおける超伝導量子ビットと吸収スペクトルのランダウ・ツェナー遷移速度

Landau-Zener transition rates of superconducting qubits and absorption spectrum in quantum dots ( http://arxiv.org/abs/2310.13058v3 )

ライセンス: Link先を確認
Jorge G. Russo and Miguel Tierz(参考訳) 新しい正確な公式は、ランダウ-ツェナー遷移率と量子ドットの吸収スペクトルを含む系に対して導かれる。 これらは、実験研究で使われる以前の不正確な近似を正す。 正確な公式は、振動周期における遷移速度の最大値と最小値の明示的な表現を与え、デチューニングパラメータの半整数値に対する振動の抑制や、デチューニングパラメータに対する周期依存性が駆動磁場振幅の特殊値で変化することなど、多くの衝撃的な物理的結果を明らかにする。 量子ドットの蛍光スペクトルは同様の性質を示す。

New exact formulas are derived for systems involving Landau-Zener transition rates and for absorption spectra in quantum dots. These rectify previous inaccurate approximations utilized in experimental studies. The exact formulas give an explicit expression for the maxima and minima of the transition rate at any oscillating period and reveal a number of striking physical consequences, such as the suppression of oscillations for half-integer values of the detuning parameter and that the periodic dependence on the detuning parameter changes at special values of the driving field amplitude. The fluorescence spectra of quantum dots exhibit similar properties.
翻訳日:2024-02-22 20:04:57 公開日:2024-02-21
# MDPにおけるLTLとOmega-regular ObjectiveのPAC学習アルゴリズム

A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs ( http://arxiv.org/abs/2310.12248v3 )

ライセンス: Link先を確認
Mateo Perez, Fabio Somenzi, Ashutosh Trivedi(参考訳) リニア時間論理(LTL)とオメガ規則目的(LTLのスーパーセット)は、近年、強化学習における非マルコフ的目的を表現する手段として使われている。 マルコフ決定過程(MDPs)におけるオメガ正則目的に対するモデルベース近似ほぼ正のPAC学習アルゴリズムを提案する。 提案アルゴリズムの開発の一環として,エプシロン再帰時間(Epsilon-recurrence time)を導入し,その限界におけるオメガ正則目標の満足度にポリシーが収束する速度を測る。 我々は,アルゴリズムが関連するパラメータの多項式数のみを必要とすることを証明し,我々の理論を裏付ける実験を行う。

Linear temporal logic (LTL) and omega-regular objectives -- a superset of LTL -- have seen recent use as a way to express non-Markovian objectives in reinforcement learning. We introduce a model-based probably approximately correct (PAC) learning algorithm for omega-regular objectives in Markov decision processes (MDPs). As part of the development of our algorithm, we introduce the epsilon-recurrence time: a measure of the speed at which a policy converges to the satisfaction of the omega-regular objective in the limit. We prove that our algorithm only requires a polynomial number of samples in the relevant parameters, and perform experiments which confirm our theory.
翻訳日:2024-02-22 20:04:45 公開日:2024-02-21
# 脳波運動画像復号:チャンネル注意機構を用いた比較分析のための枠組み

EEG motor imagery decoding: A framework for comparative analysis with channel attention mechanisms ( http://arxiv.org/abs/2310.11198v2 )

ライセンス: Link先を確認
Martin Wimpff, Leonardo Gizzi, Jan Zerfowski, Bin Yang(参考訳) 本研究の目的は,脳-コンピュータインタフェース(bci)領域における各種チャネル注意機構の運動画像復号への応用を検討することである。 チャネルアテンション機構は、伝統的に運動画像復号に用いられる空間フィルターの強力な進化と見なすことができる。 本研究は、これらのメカニズムを軽量アーキテクチャフレームワークに統合し、その影響を評価することによって体系的に比較する。 我々は,異なるチャネルアテンション機構をシームレスに統合する,単純で軽量なベースラインアーキテクチャを慎重に構築する。 このアプローチは、1つのアテンションメカニズムのみを調査し、通常非常に複雑で時にネストしたアーキテクチャを構築する以前の作品とは対照的である。 我々のフレームワークは、異なる注意メカニズムの影響を同じ状況下で評価し、比較することができる。 異なるチャネルアテンション機構の容易な統合と計算の複雑さの低減により、4つのデータセットに対して幅広い実験を行い、ベースラインモデルとアテンション機構の有効性を徹底的に評価することができる。 私たちの実験では、アーキテクチャフレームワークの強みと汎用性を実証するとともに、ベースラインアーキテクチャの少ないメモリフットプリントと低い計算複雑性を維持しながら、チャネルアテンション機構がパフォーマンスをいかに改善できるかを示しました。 我々のアーキテクチャは単純さを重視し、チャネルアテンション機構の容易な統合を提供しながら、データセット間の高度な一般化性を維持し、脳-コンピュータインタフェース内の脳波運動画像復号のための汎用的で効率的なソリューションである。

The objective of this study is to investigate the application of various channel attention mechanisms within the domain of brain-computer interface (BCI) for motor imagery decoding. Channel attention mechanisms can be seen as a powerful evolution of spatial filters traditionally used for motor imagery decoding. This study systematically compares such mechanisms by integrating them into a lightweight architecture framework to evaluate their impact. We carefully construct a straightforward and lightweight baseline architecture designed to seamlessly integrate different channel attention mechanisms. This approach is contrary to previous works which only investigate one attention mechanism and usually build a very complex, sometimes nested architecture. Our framework allows us to evaluate and compare the impact of different attention mechanisms under the same circumstances. The easy integration of different channel attention mechanisms as well as the low computational complexity enables us to conduct a wide range of experiments on four datasets to thoroughly assess the effectiveness of the baseline model and the attention mechanisms. Our experiments demonstrate the strength and generalizability of our architecture framework as well as how channel attention mechanisms can improve the performance while maintaining the small memory footprint and low computational complexity of our baseline architecture. Our architecture emphasizes simplicity, offering easy integration of channel attention mechanisms, while maintaining a high degree of generalizability across datasets, making it a versatile and efficient solution for EEG motor imagery decoding within brain-computer interfaces.
翻訳日:2024-02-22 20:04:34 公開日:2024-02-21
# 一般化境界における比較器の比較

Comparing Comparators in Generalization Bounds ( http://arxiv.org/abs/2310.10534v2 )

ライセンス: Link先を確認
Fredrik Hellstr\"om, Benjamin Guedj(参考訳) 学習と人口減少の差を測定する任意の凸コンパレータ関数を含む汎用情報理論およびpac-ベイズ一般化境界を導出する。 境界は、コンパレータの累積生成関数(CGF)が、有界分布の族内の対応する CGF によって上界となるという仮定で成り立つ。 有界分布 CGF の凸共役(英語版)(convex conjugate)であるコンパレータ(英語版)をCram\'er関数(英語版)(Clam\'er function)と呼ぶ。 この結論は、同様の構造を持つ一般化境界に対してより広く適用される。 これにより、有界および準ガウス損失に対する既知の境界の近似最適性が保証され、他の境界分布の下で新しい境界が導かれる。

We derive generic information-theoretic and PAC-Bayesian generalization bounds involving an arbitrary convex comparator function, which measures the discrepancy between the training and population loss. The bounds hold under the assumption that the cumulant-generating function (CGF) of the comparator is upper-bounded by the corresponding CGF within a family of bounding distributions. We show that the tightest possible bound is obtained with the comparator being the convex conjugate of the CGF of the bounding distribution, also known as the Cram\'er function. This conclusion applies more broadly to generalization bounds with a similar structure. This confirms the near-optimality of known bounds for bounded and sub-Gaussian losses and leads to novel bounds under other bounding distributions.
翻訳日:2024-02-22 20:04:11 公開日:2024-02-21
# ビジュアルプロンプト質問回答としての画像処理の統一

Unifying Image Processing as Visual Prompting Question Answering ( http://arxiv.org/abs/2310.10513v2 )

ライセンス: Link先を確認
Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong(参考訳) 画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。 伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。 自然言語処理(NLP)における大規模言語モデル(LLM)の成功に基づき、コンピュータビジョンにも同様の傾向があり、事前学習と文脈学習による大規模モデルの開発に焦点を当てている。 このパラダイムシフトはタスク固有のモデルへの依存を減らし、様々なタスクを扱う強力な統一モデルを生み出す。 しかし、これらの進歩は主に高レベルの視覚タスクに集中しており、低レベルの視覚タスクにはあまり注意を払わない。 この問題に対処するために,画像復元,画像強調,画像特徴抽出タスクなどをカバーする汎用画像処理モデルを提案する。 提案するプロンプトgipというフレームワークは,これら多様な画像処理タスクをユニバーサルフレームワークに統合する。 NLP質問応答(QA)技術にインスパイアされた我々は、視覚的な質問応答パラダイムを採用している。 具体的には、入力出力画像ペアを構造化質問応答文として扱い、画像処理タスクをプロンプトqa問題として再プログラミングする。 PromptGIPは、与えられた視覚的プロンプトを使用して、多様なクロスドメインタスクを実行できる。 本手法は一般的な画像処理に対して普遍的かつ適応的なソリューションを提供する。 promptgipはある程度の領域外タスク一般化能力を示しているが、さらなる研究がより強力な創発的一般化を探求することが期待されている。

Image processing is a fundamental task in computer vision, which aims at enhancing image quality and extracting essential features for subsequent vision applications. Traditionally, task-specific models are developed for individual tasks and designing such models requires distinct expertise. Building upon the success of large language models (LLMs) in natural language processing (NLP), there is a similar trend in computer vision, which focuses on developing large-scale models through pretraining and in-context learning. This paradigm shift reduces the reliance on task-specific models, yielding a powerful unified model to deal with various tasks. However, these advances have predominantly concentrated on high-level vision tasks, with less attention paid to low-level vision tasks. To address this issue, we propose a universal model for general image processing that covers image restoration, image enhancement, image feature extraction tasks, etc. Our proposed framework, named PromptGIP, unifies these diverse image processing tasks within a universal framework. Inspired by NLP question answering (QA) techniques, we employ a visual prompting question answering paradigm. Specifically, we treat the input-output image pair as a structured question-answer sentence, thereby reprogramming the image processing task as a prompting QA problem. PromptGIP can undertake diverse cross-domain tasks using provided visual prompts, eliminating the need for task-specific finetuning. Our methodology offers a universal and adaptive solution to general image processing. While PromptGIP has demonstrated a certain degree of out-of-domain task generalization capability, further research is expected to fully explore its more powerful emergent generalization.
翻訳日:2024-02-22 20:03:57 公開日:2024-02-21
# adaptive neural ranking framework: カスケードランキングシステムにおけるビジネス目標の最大化に向けて

Adaptive Neural Ranking Framework: Toward Maximized Business Goal for Cascade Ranking Systems ( http://arxiv.org/abs/2310.10462v2 )

ライセンス: Link先を確認
Yunli Wang, Zhiqiang Wang, Jian Yang, Shiyang Wen, Dongying Kong, Han Li, Kun Gai(参考訳) カスケードランキングは、オンライン広告やレコメンデーションシステムにおける大規模なトップk選択問題に広く使われており、カスケードランキングのモデルを最適化する重要な方法である。 従来は学習ランクに関する作業は、モデルに完全な順序やトップk順序を学習させ、最適化対象として対応するランクメトリクス(OPAやNDCG@kなど)を採用することに集中していた。 しかし、これらのターゲットは様々なデータ複雑さとモデル能力を持つ様々なカスケードランキングシナリオに適応できない。また、lambdaフレームワークのような既存のメトリック駆動のメソッドは、限られたメトリクスの粗い上限のみを最適化することができ、潜在的に最適化とパフォーマンスのミスアライメントをもたらす可能性がある。 そこで本研究では,データ複雑度やモデル能力に対する最適化対象の適応性に着目し,カスケードランキングシステムの最適化に関する新しい視点を提案する。 具体的には、緩和されたターゲットとフルターゲットの最適化を適応的に組み合わせるためにマルチタスク学習を使用し、それぞれRecall@m@kとOPAのメトリクスを参照する。 また,ランクメトリクスを表現するために置換行列を導入し,制御可能な近似誤差境界を持つハード置換行列を緩和するために微分可能なソート技術を用いる。 これにより、緩和されたターゲットと完全なターゲットの両方を直接、より適切に最適化できます。 我々はこの手法を適応的ニューラルネットワークランキングフレームワーク(ARF)と命名した。 さらに,ARFの下で特定の実践を行う。 我々はNeuralSortを用いて、緩和された置換行列を取得し、マルチタスク学習における不確実性重み付け法の変種を利用して、提案した損失を共同で最適化する。 4つの公開および産業ベンチマーク実験により,本手法の有効性と一般化が示され,オンライン実験により,本手法の応用価値が著しく高いことが示された。

Cascade ranking is widely used for large-scale top-k selection problems in online advertising and recommendation systems, and learning-to-rank is an important way to optimize the models in cascade ranking. Previous works on learning-to-rank usually focus on letting the model learn the complete order or top-k order, and adopt the corresponding rank metrics (e.g. OPA and NDCG@k) as optimization targets. However, these targets can not adapt to various cascade ranking scenarios with varying data complexities and model capabilities; and the existing metric-driven methods such as the Lambda framework can only optimize a rough upper bound of limited metrics, potentially resulting in sub-optimal and performance misalignment. To address these issues, we propose a novel perspective on optimizing cascade ranking systems by highlighting the adaptability of optimization targets to data complexities and model capabilities. Concretely, we employ multi-task learning to adaptively combine the optimization of relaxed and full targets, which refers to metrics Recall@m@k and OPA respectively. We also introduce permutation matrix to represent the rank metrics and employ differentiable sorting techniques to relax hard permutation matrix with controllable approximate error bound. This enables us to optimize both the relaxed and full targets directly and more appropriately. We named this method as Adaptive Neural Ranking Framework (abbreviated as ARF). Furthermore, we give a specific practice under ARF. We use the NeuralSort to obtain the relaxed permutation matrix and draw on the variant of the uncertainty weight method in multi-task learning to optimize the proposed losses jointly. Experiments on a total of 4 public and industrial benchmarks show the effectiveness and generalization of our method, and online experiment shows that our method has significant application value.
翻訳日:2024-02-22 20:03:15 公開日:2024-02-21
# QLLM:大規模言語モデルのための高精度で効率的な低ビット幅量子化

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models ( http://arxiv.org/abs/2310.08041v2 )

ライセンス: Link先を確認
Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, Bohan Zhuang(参考訳) 大規模言語モデル(LLM)はNLPで優れているが、その要求は広く展開を妨げている。 量子化アウェアトレーニング(QAT)はソリューションを提供するが、その広範なトレーニングコストは、後量子化(PTQ)をより実践的なアプローチにする。 既存の研究では、特定のチャネルにおけるアクティベーション・アウトレイアがPTQ精度のボトルネックとして認識されている。 彼らはその大きさを活性化から重みに変換することを提案したが、これは限定的な緩和や不安定な勾配に悩まされ、結果として低ビット幅での厳しい性能低下をもたらす。 本稿では,LLMのための高精度かつ効率的な低ビット幅PTQ法であるQLLMを提案する。 QLLMはアダプティブチャネル再組み立て技術を導入し、アウトレーヤの規模を他のチャネルに再配置することで、量子化範囲への影響を緩和する。 これはchannel disassemblyとchannel assemblyによって実現され、最初にoutlierチャンネルを複数のsub-channelに分割することで、アクティベーションのマグニチュードのよりバランスのとれた分散が保証される。 その後、同様のチャンネルをマージして元のチャンネル番号を効率良く維持する。 さらに、チャネル分解のための最適なサブチャネル数を自律的に決定する適応戦略も設計されている。 量子化による性能損失を補うために,事前学習した量子化モデルを凍結しながら少数の低ランク重みのみを学習する効率的なチューニング手法を提案する。 トレーニング後、これらの低ランクパラメータは推論に影響を与えることなく凍結重量に融合することができる。 LLaMA-1とLLaMA-2の大規模な実験は、QLLMが正確な量子化モデルを効率的に得ることを示す。 例えば、QLLMは、1つのA100-80G GPU上で4ビットのLLaMA-2-70Bを10時間以内に量子化し、5つのゼロショットタスクの平均精度を7.89%上回る。

Large Language Models (LLMs) excel in NLP, but their demands hinder their widespread deployment. While Quantization-Aware Training (QAT) offers a solution, its extensive training costs make Post-Training Quantization (PTQ) a more practical approach for LLMs. In existing studies, activation outliers in particular channels are identified as the bottleneck to PTQ accuracy. They propose to transform the magnitudes from activations to weights, which however offers limited alleviation or suffers from unstable gradients, resulting in a severe performance drop at low-bitwidth. In this paper, we propose QLLM, an accurate and efficient low-bitwidth PTQ method designed for LLMs. QLLM introduces an adaptive channel reassembly technique that reallocates the magnitude of outliers to other channels, thereby mitigating their impact on the quantization range. This is achieved by channel disassembly and channel assembly, which first breaks down the outlier channels into several sub-channels to ensure a more balanced distribution of activation magnitudes. Then similar channels are merged to maintain the original channel number for efficiency. Additionally, an adaptive strategy is designed to autonomously determine the optimal number of sub-channels for channel disassembly. To further compensate for the performance loss caused by quantization, we propose an efficient tuning method that only learns a small number of low-rank weights while freezing the pre-trained quantized model. After training, these low-rank parameters can be fused into the frozen weights without affecting inference. Extensive experiments on LLaMA-1 and LLaMA-2 show that QLLM can obtain accurate quantized models efficiently. For example, QLLM quantizes the 4-bit LLaMA-2-70B within 10 hours on a single A100-80G GPU, outperforming the previous state-of-the-art method by 7.89% on the average accuracy across five zero-shot tasks.
翻訳日:2024-02-22 20:02:42 公開日:2024-02-21
# 情報分解による解釈可能な拡散

Interpretable Diffusion via Information Decomposition ( http://arxiv.org/abs/2310.07972v2 )

ライセンス: Link先を確認
Xianghao Kong, Ollie Liu, Han Li, Dani Yogatama, Greg Ver Steeg(参考訳) 雑音拡散モデルは、画像やテキストのような複雑な関係の条件付き生成と密度モデルを可能にする。 しかし、学習された関係の性質は不透明であるため、どの単語と画像の部分の関係が捉えられるのかを正確に理解したり、介入の効果を予測することは困難である。 拡散モデルによって得られた細粒度関係を,拡散と情報分解の正確な関係に気付き,照らし出す。 具体的相互情報表現と条件付き相互情報表現は、デノナイジングモデルを用いて記述することができる。 さらに、ポイントワイズ推定も容易に見積もることができ、特定の画像とキャプションの関係について質問することができる。 さらに情報を分解して、高次元空間のどの変数が情報を運ぶかを理解することは、長年にわたる問題である。 拡散モデルでは、相互情報の自然な非負分解が出現し、画像中の単語と画素間の情報的関係を定量化できることを示す。 これらの新しい関係を利用して拡散モデルの構成的理解を計測し,画像中の物体の教師なし局在を計測し,迅速な介入により画像の選択的編集を行う際の効果を計測する。

Denoising diffusion models enable conditional generation and density modeling of complex relationships like images and text. However, the nature of the learned relationships is opaque making it difficult to understand precisely what relationships between words and parts of an image are captured, or to predict the effect of an intervention. We illuminate the fine-grained relationships learned by diffusion models by noticing a precise relationship between diffusion and information decomposition. Exact expressions for mutual information and conditional mutual information can be written in terms of the denoising model. Furthermore, pointwise estimates can be easily estimated as well, allowing us to ask questions about the relationships between specific images and captions. Decomposing information even further to understand which variables in a high-dimensional space carry information is a long-standing problem. For diffusion models, we show that a natural non-negative decomposition of mutual information emerges, allowing us to quantify informative relationships between words and pixels in an image. We exploit these new relations to measure the compositional understanding of diffusion models, to do unsupervised localization of objects in images, and to measure effects when selectively editing images through prompt interventions.
翻訳日:2024-02-22 20:02:09 公開日:2024-02-21
# グラフ葉法によるベル対抽出

Bell pair extraction using graph foliage techniques ( http://arxiv.org/abs/2311.16188v2 )

ライセンス: Link先を確認
Derek Zhang(参考訳) 将来の量子ネットワークは、様々なノード間の量子情報の通信を容易にする。 特に、複数のペアがネットワークをまたいで同時に通信できるかどうかに関心があります。 量子ネットワークはグラフ状態で表現することができ、グラフ状態上で特定の量子演算を実行するための通信リンクを生成する。 この問題は(ベル)頂点マイナー問題とグラフ理論的な意味で定式化することができる。 我々は最近導入された葉分断について論じ、一般化を提供する。 この一般化は、頂点-小問題へのアプローチに有用な結果をもたらす。 この結果を用いて、線、木、環グラフ上のベル頂点・マイノール問題の厳密解を同定する。

Future quantum networks can facilitate communication of quantum information between various nodes. We are particularly interested in whether multiple pairs can communicate simultaneously across a network. Quantum networks can be represented with graph states, and producing communication links amounts to performing certain quantum operations on graph states. This problem can be formulated in a graph-theoretic sense with the (Bell) vertex-minor problem. We discuss the recently introduced foliage partition and provide a generalization. This generalization leads us to a useful result for approaching the vertex-minor problem. We apply this result to identify the exact solution for the Bell vertex-minor problem on line, tree, and ring graphs.
翻訳日:2024-02-22 19:54:06 公開日:2024-02-21
# MSIにおける雲検出のための雲厚対策の合成データセットの作成と活用

Creating and Leveraging a Synthetic Dataset of Cloud Optical Thickness Measures for Cloud Detection in MSI ( http://arxiv.org/abs/2311.14024v2 )

ライセンス: Link先を確認
Aleksis Pirinen, Nosheen Abid, Nuria Agues Paszkowsky, Thomas Ohlson Timoudas, Ronald Scheirer, Chiara Ceccobello, Gy\"orgy Kov\'acs, Anders Persson(参考訳) 雲の形成はしばしば衛星による地球表面の観測を曖昧にし、土地被覆マッピング、海洋色分析、作物のモニタリングなどの地球観測(eo)活動を制限する。 リモートセンシング領域における機械学習(ML)メソッドの統合は、クラウド検出やフィルタリングを含む幅広いEOタスクのパフォーマンスを大幅に向上させたが、まだ改善の余地がたくさんある。 重要なボトルネックは、一般的にMLメソッドがトレーニングのために大量のアノテートされたデータに依存していることだ。 これは、雲の光学的厚さ(COT)の推定において特に当てはまる。 COTの信頼性の高い推定は、実際に一般的に行われているように、事前に特定されたクラウドカテゴリを使用する場合と比較して、よりきめ細かいアプリケーション依存の制御を可能にする。 本研究では,COTデータ不足問題を軽減するために,COT推定のための新しい合成データセットを提案する。 本データセットでは,Sentinel-2プラットフォーム上でのマルチスペクトル画像(MSI)センサのスペクトル帯域の12つについて,大気上放射光をシミュレートした。 これらのデータポイントは、異なる雲の種類、COT、地表および大気プロファイルを考慮してシミュレーションされている。 スペクトル帯域の反射率の測定値からCOTを予測するためのMLモデルの大規模な実験により,提案したデータセットの有用性が示された。 特に、私たちのMLモデルからCOT推定を閾値付けすることで、2つの衛星画像データセット(公開されており、1つが収集され、注釈付けされているもの)に信頼性の高いクラウドマスクが取得可能であることを示す。 合成データ、収集された実際のデータセット、コード、モデルはhttps://github.com/aleksispi/ml-cloud-opt-thickで公開されている。

Cloud formations often obscure optical satellite-based monitoring of the Earth's surface, thus limiting Earth observation (EO) activities such as land cover mapping, ocean color analysis, and cropland monitoring. The integration of machine learning (ML) methods within the remote sensing domain has significantly improved performance on a wide range of EO tasks, including cloud detection and filtering, but there is still much room for improvement. A key bottleneck is that ML methods typically depend on large amounts of annotated data for training, which is often difficult to come by in EO contexts. This is especially true when it comes to cloud optical thickness (COT) estimation. A reliable estimation of COT enables more fine-grained and application-dependent control compared to using pre-specified cloud categories, as is commonly done in practice. To alleviate the COT data scarcity problem, in this work we propose a novel synthetic dataset for COT estimation, that we subsequently leverage for obtaining reliable and versatile cloud masks on real data. In our dataset, top-of-atmosphere radiances have been simulated for 12 of the spectral bands of the Multispectral Imagery (MSI) sensor onboard Sentinel-2 platforms. These data points have been simulated under consideration of different cloud types, COTs, and ground surface and atmospheric profiles. Extensive experimentation of training several ML models to predict COT from the measured reflectivity of the spectral bands demonstrates the usefulness of our proposed dataset. In particular, by thresholding COT estimates from our ML models, we show on two satellite image datasets (one that is publicly available, and one which we have collected and annotated) that reliable cloud masks can be obtained. The synthetic data, the collected real dataset, code and models have been made publicly available at https://github.com/aleksispi/ml-cloud-opt-thick.
翻訳日:2024-02-22 19:53:58 公開日:2024-02-21
# qftにおける測定理論に向けて:「不可能」量子測定は可能だが理想的ではない

Towards a measurement theory in QFT: "Impossible" quantum measurements are possible but not ideal ( http://arxiv.org/abs/2311.13644v2 )

ライセンス: Link先を確認
Nicolas Gisin and Flavio Del Santo(参考訳) ナイーブは相対性理論と量子測定をまとめようと試み、空間のような分離領域間のシグナルを導いた。 QFTでは、これらは不可能な測定として知られている。 我々は、非相対論的量子物理学において同じ問題が生じることを示し、例えば非物理的通信の原理に基づくような)非局所的な共同測定(すなわち、システム間の空間的分離)が信号化につながる。 どの非局所量子測定が物理的に可能か? 我々は,qftにおける不可能観測とは独立に開発された非相対論的量子情報アプローチをレビュー・開発し,これら2つが事実上同じ問題に取り組んでいることを示す。 非相対論的解は、すべての非局所的な測定がローカライズ可能であることを示している(つまり、符号を違反することなく遠くで行うことができる)。 i) 任意に大きな絡み合った資源を必要とする場合がある (ii)一般に理想とはなり得ない、即ち、すぐには再現できない。 これらの考察は、QFTにおける完全な測定理論の発展を導くのに役立つ。

Naive attempts to put together relativity and quantum measurements lead to signaling between space-like separated regions. In QFT, these are known as impossible measurements. We show that the same problem arises in non-relativistic quantum physics, where joint nonlocal measurements (i.e., between systems kept spatially separated) in general lead to signaling, while one would expect no-signaling (based for instance on the principle of no-nonphysical communication). This raises the question: Which nonlocal quantum measurements are physically possible? We review and develop further a non-relativistic quantum information approach developed independently of the impossible measurements in QFT, and show that these two have been addressing virtually the same problem. The non-relativistic solution shows that all nonlocal measurements are localizable (i.e., they can be carried out at a distance without violating no-signaling) but they (i) may require arbitrarily large entangled resources and (ii) cannot in general be ideal, i.e., are not immediately reproducible. These considerations could help guide the development of a complete theory of measurement in QFT.
翻訳日:2024-02-22 19:53:27 公開日:2024-02-21
# 数学的観点から修正されたコンウェイの法則

Conway's law, revised from a mathematical viewpoint ( http://arxiv.org/abs/2311.10475v2 )

ライセンス: Link先を確認
Shigeki Matsutani, Shousuke Ohmori, Kenji Hiranabe, and Eiichi Hanyuda(参考訳) 本稿では,コンウェイの法則を数学的観点から見直しる。 タスクグラフを導入することで、ソフトウェアシステムとそれを作った組織に対するグラフ理論の準同型に基づいて、コンウェイの法則を厳格に記述する。 コンウェイはこれを言及していないが、タスクグラフはタスクの幾何学的構造を示しており、重要な役割を果たす。 さらに,組織におけるコミュニケーション(セキュリティ,知識隠蔽など)の高度処理や組織階層的処理に対する近年の要求から,これらのステートメントを弱化準同型,グラフトポロジーにおける連続写像という観点から再構成した。 グラフトポロジーとコンウェイの法則の連続写像を使用するために、それらを数学的ツールとして準備し、コンウェイの対応と階層構造との自然な表現を示す。

In this article, we revise Conway's Law from a mathematical point of view. By introducing a task graph, we first rigorously state Conway's Law based on the homomorphisms in graph theory for the software system and the organizations that created it. Though Conway did not mention it, the task graph shows the geometric structure of tasks, which plays a crucial role. Furthermore, due to recent requirements for high-level treatment of communication (due to security, knowledge hiding, etc.) in organizations and hierarchical treatment of organizations, we have reformulated these statements in terms of weakened homomorphisms, and the continuous maps in graph topology. In order to use graph topology and the continuous map in Conway's law, we have prepared them as mathematical tools, and then we show the natural expression of Conway's correspondences with hierarchical structures.
翻訳日:2024-02-22 19:52:52 公開日:2024-02-21
# テキスト分類のための言語モデルにおける概念レベルでのスプリアス相関の検討

Explore Spurious Correlations at the Concept Level in Language Models for Text Classification ( http://arxiv.org/abs/2311.08648v3 )

ライセンス: Link先を確認
Yuhang Zhou, Paiheng Xu, Xiaoyu Liu, Bang An, Wei Ai, Furong Huang(参考訳) 言語モデル(LM)は多くのNLPタスクで顕著な成功を収め、微調整と文脈内学習(ICL)の両方の手法を用いている。 言語モデルは例外的な性能を示すが、トレーニングデータやICLの例において不均衡なラベル分布から生じる急激な相関によって頑健性に直面する。 これまでの研究は主に単語、フレーズ、構文の特徴に焦点を合わせてきたが、概念レベルを無視することはしばしば、概念ラベルの欠如や、入力テキストにおける概念内容の特定が困難であったためである。 本稿では2つの主な貢献を紹介する。 まず、chatgptを用いてテキストに概念ラベルを割り当て、微調整やテストデータでのiclにおけるモデルの概念バイアスを評価する。 LMは、トレーニングやプロンプトにおいて概念とラベルの間に急激な相関に遭遇する場合、予測のショートカットを利用する。 次に,chatgptが生成する反事実データを用いてラベル分布のバランスをとり,スプリアス相関を緩和するデータバランス手法を提案する。 従来のトークン除去アプローチを超越した手法の有効性は,広範なテストによって検証される。

Language models (LMs) have achieved notable success in numerous NLP tasks, employing both fine-tuning and in-context learning (ICL) methods. While language models demonstrate exceptional performance, they face robustness challenges due to spurious correlations arising from imbalanced label distributions in training data or ICL exemplars. Previous research has primarily concentrated on word, phrase, and syntax features, neglecting the concept level, often due to the absence of concept labels and difficulty in identifying conceptual content in input texts. This paper introduces two main contributions. First, we employ ChatGPT to assign concept labels to texts, assessing concept bias in models during fine-tuning or ICL on test data. We find that LMs, when encountering spurious correlations between a concept and a label in training or prompts, resort to shortcuts for predictions. Second, we introduce a data rebalancing technique that incorporates ChatGPT-generated counterfactual data, thereby balancing label distribution and mitigating spurious correlations. Our method's efficacy, surpassing traditional token removal approaches, is validated through extensive testing.
翻訳日:2024-02-22 19:52:19 公開日:2024-02-21
# あなたは確かですか? FlipFlop実験におけるLCMの混在によるパフォーマンス低下

Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment ( http://arxiv.org/abs/2311.08596v2 )

ライセンス: Link先を確認
Philippe Laban and Lidiya Murakhovs'ka and Caiming Xiong and Chien-Sheng Wu(参考訳) LLM(Large Language Models)のインタラクティブな性質は、理論的にはモデルによる解法の洗練と改善を可能にするが、LLMのマルチターン動作の体系的解析は限定的である。 本稿では,FlipFlop実験を提案する。会話の第1ラウンドでは,LLMが分類タスクを完了する。 2回目のラウンドでは、LLMは"Are you sure?"のようなフォローアップフレーズで挑戦され、モデルが最初の回答を反映する機会を提供し、その答えを確認または無効にするかを決めます。 7つの分類タスクにおける10のllmの体系的な研究により、モデルが平均46%の頻度で答えをひっくり返し、全てのモデルが最初の予測と最終予測の間に精度の低下が見られることが明らかとなった(フリップフロップ効果)。 オープンソースのllm上で微調整実験を行い,合成データに対する微調整は性能劣化を60%低減するが,共発的な動作を完全に解決するものではないことを発見した。 FlipFlop実験は、LLMにおけるサイコファンティック行動の普遍性を示し、モデル挙動を分析し将来のモデルを評価するための堅牢なフレームワークを提供する。

The interactive nature of Large Language Models (LLMs) theoretically allows models to refine and improve their answers, yet systematic analysis of the multi-turn behavior of LLMs remains limited. In this paper, we propose the FlipFlop experiment: in the first round of the conversation, an LLM completes a classification task. In a second round, the LLM is challenged with a follow-up phrase like "Are you sure?", offering an opportunity for the model to reflect on its initial answer, and decide whether to confirm or flip its answer. A systematic study of ten LLMs on seven classification tasks reveals that models flip their answers on average 46% of the time and that all models see a deterioration of accuracy between their first and final prediction, with an average drop of 17% (the FlipFlop effect). We conduct finetuning experiments on an open-source LLM and find that finetuning on synthetically created data can mitigate - reducing performance deterioration by 60% - but not resolve sycophantic behavior entirely. The FlipFlop experiment illustrates the universality of sycophantic behavior in LLMs and provides a robust framework to analyze model behavior and evaluate future models.
翻訳日:2024-02-22 19:51:57 公開日:2024-02-21
# Vlasov-Maxwell方程式を解くための量子テンソルネットワーク

Quantized tensor networks for solving the Vlasov-Maxwell equations ( http://arxiv.org/abs/2311.07756v3 )

ライセンス: Link先を確認
Erika Ye, Nuno Loureiro(参考訳) ヴラソフ=マクスウェル方程式は衝突のないプラズマを記述した \textit{ab-initio} であるが、解決しなければならない広い空間的・時間的スケールと問題の高次元のため、解決はしばしば非実用的である。 本稿では,量子化テンソルネットワーク(qtn)フレームワークを用いた量子インスパイアされたvlasov-maxwellソルバを提案する。 この qtn ソルバにより、サイズ $n$ のグリッドベースの数値シミュレーションのコストは $\mathcal{o}(n)$ から $\mathcal{o}(\text{poly}(d))$ に削減される。 ここで考慮された5次元のテスト問題では、実数計算に$d=2^{18}$を必要とする、合計$n=2^{36}$グリッドポイントを用いたシミュレーションにもかかわらず、予想物理学を捉えるには控えめな$d=64$が十分であることがわかった。 さらに,Dirac-Frenkel変分原理に基づくQTN時間進化スキームにより,Courant-Friedrichs-Lewy (CFL) 制約よりも大きな時間ステップを使用できることを示す。 このようにして、この研究はQTN形式が、コストを大幅に削減したヴラソフ・マクスウェル方程式をおよそ解くための有望な手段であることを示した。

The Vlasov-Maxwell equations provide an \textit{ab-initio} description of collisionless plasmas, but solving them is often impractical because of the wide range of spatial and temporal scales that must be resolved and the high dimensionality of the problem. In this work, we present a quantum-inspired semi-implicit Vlasov-Maxwell solver that utilizes the quantized tensor network (QTN) framework. With this QTN solver, the cost of grid-based numerical simulation of size $N$ is reduced from $\mathcal{O}(N)$ to $\mathcal{O}(\text{poly}(D))$, where $D$ is the ``rank'' or ``bond dimension'' of the QTN and is typically set to be much smaller than $N$. We find that for the five-dimensional test problems considered here, a modest $D=64$ appears to be sufficient for capturing the expected physics despite the simulations using a total of $N=2^{36}$ grid points, \edit{which would require $D=2^{18}$ for full-rank calculations}. Additionally, we observe that a QTN time evolution scheme based on the Dirac-Frenkel variational principle allows one to use larger time steps than prescribed by the Courant-Friedrichs-Lewy (CFL) constraint. As such, this work demonstrates that the QTN format is a promising means of approximately solving the Vlasov-Maxwell equations with significantly reduced cost.
翻訳日:2024-02-22 19:51:14 公開日:2024-02-21
# Coffee: フィードバックでバグを修正することでコードLLMを強化

Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback ( http://arxiv.org/abs/2311.07215v2 )

ライセンス: Link先を確認
Seungjun Moon, Yongho Song, Hyungjoo Chae, Dongjin Kang, Taeyoon Kwon, Kai Tzu-iunn Ong, Seung-won Hwang, Jinyoung Yeo(参考訳) コード編集は、コードLLMから生成された臨界エラーを自動的に修正する、信頼性の高いプログラム合成への重要なステップである。 近年の研究では、ChatGPT や GPT-4 といったクローズドソース LLM が、誤った入力を編集する修正フィードバックを生成できることが示されている。 しかし、これらのモデルは表面的なフィードバック形式に固執し、誤解を招く情報を提供する傾向があるため、オープンソースのLLMがコード編集のためのフィードバックを生成することは依然として困難である。 したがって、我々の研究の焦点は、オープンソースのLLMを活用して、コード編集のための正しいガイダンスで有益なフィードバックを生成することである。 この目的のために、フィードバックによるコード修正に特化したデータセットであるCoffeeを紹介します。 このデータセットを用いて、Preference-Optimized Tuning and Selectionを介して、FEEdbackによるCOde FixingのためのフレームワークであるCoffeePotsを構築する。 提案フレームワークは,表面的フィードバックのリスクを最小限に抑えつつ,コード編集に有用なフィードバックを自動的に生成することを目的としている。 コーヒーとコーヒーポットの組み合わせは重要な進歩を示し、humanevalfixベンチマークで最先端のパフォーマンスを達成した。 コードとモデルチェックポイントはhttps://github.com/lune-blue/coffeeで公開されている。

Code editing is an essential step towards reliable program synthesis to automatically correct critical errors generated from code LLMs. Recent studies have demonstrated that closed-source LLMs (i.e., ChatGPT and GPT-4) are capable of generating corrective feedback to edit erroneous inputs. However, it remains challenging for open-source code LLMs to generate feedback for code editing, since these models tend to adhere to the superficial formats of feedback and provide feedback with misleading information. Hence, the focus of our work is to leverage open-source code LLMs to generate helpful feedback with correct guidance for code editing. To this end, we present Coffee, a collected dataset specifically designed for code fixing with feedback. Using this dataset, we construct CoffeePots, a framework for COde Fixing with FEEdback via Preference-Optimized Tuning and Selection. The proposed framework aims to automatically generate helpful feedback for code editing while minimizing the potential risk of superficial feedback. The combination of Coffee and CoffeePots marks a significant advancement, achieving state-of-the-art performance on HumanEvalFix benchmark. Codes and model checkpoints are publicly available at https://github.com/Lune-Blue/COFFEE.
翻訳日:2024-02-22 19:50:40 公開日:2024-02-21
# 真実を語る: 嘘の言語と言語モデル

To Tell The Truth: Language of Deception and Language Models ( http://arxiv.org/abs/2311.07092v2 )

ライセンス: Link先を確認
Sanchaita Hazra, Bodhisattwa Prasad Majumder(参考訳) テキストに基づく誤情報は、オンラインの談話に浸透するが、真理をそのような偽りのテキストコンテンツと識別する能力の証拠は乏しい。 対立する目的を持つ個人同士の高テイク環境における会話が嘘をつくという,新しいテレビ番組データを分析する。 本研究は,先行するテキスト・ベース・デセプション・データセットにない特徴である,客観的真理の存在下での誤認の潜在的検証可能な言語手がかりの出現について検討する。 本研究では,前者が言語的手がかりのみにアクセスする場合や,後者がすべての潜在的な手がかり(言語および音声視覚)に完全にアクセスする場合においても,人体と同じような真理検出性能を有する検知器(アルゴリズム)が存在することを示す。 我々のモデルは,大きな言語モデルに基づいて構築され,識別可能な手がかりを学習して真理を判断するボトルネックフレームワークを採用している。 本モデルでは,人間が誤認を検知できず,人間がアルゴリズムと協調し,真理を検知する能力を改善する可能性がある場合に,新しいが正確な言語手がかりを検出する。

Text-based misinformation permeates online discourses, yet evidence of people's ability to discern truth from such deceptive textual content is scarce. We analyze a novel TV game show data where conversations in a high-stake environment between individuals with conflicting objectives result in lies. We investigate the manifestation of potentially verifiable language cues of deception in the presence of objective truth, a distinguishing feature absent in previous text-based deception datasets. We show that there exists a class of detectors (algorithms) that have similar truth detection performance compared to human subjects, even when the former accesses only the language cues while the latter engages in conversations with complete access to all potential sources of cues (language and audio-visual). Our model, built on a large language model, employs a bottleneck framework to learn discernible cues to determine truth, an act of reasoning in which human subjects often perform poorly, even with incentives. Our model detects novel but accurate language cues in many cases where humans failed to detect deception, opening up the possibility of humans collaborating with algorithms and ameliorating their ability to detect the truth.
翻訳日:2024-02-22 19:50:20 公開日:2024-02-21
# 行列関数の量子的および古典的クエリ複雑性

Quantum and classical query complexities of functions of matrices ( http://arxiv.org/abs/2311.06999v2 )

ライセンス: Link先を確認
Ashley Montanaro and Changpeng Shao(参考訳) A$を$s$スパースエルミート行列とし、$f(x)$を単変数関数とし、$i, j$を2つの指標とする。 本研究では,$\bra{i} f(a) \ket{j}$ を近似するクエリ複雑性について検討する。 任意の連続関数 $f(x):[-1,1]\rightarrow [-1,1]$ に対して、計算の量子クエリ複雑性 $\bra{i} f(A) \ket{j}\pm \varepsilon/4$ は $\Omega(\widetilde{\deg}_\varepsilon(f)$ で下界であることが示される。 上界は、少なくとも$\widetilde{\deg}_\varepsilon(f)$において二次的であり、$A$上のある穏やかな仮定の下で$\widetilde{\deg}_\varepsilon(f)$において線型である。 ここで、近似次数 $\widetilde{\deg}_\varepsilon(f)$ は、その次数の多項式が$f$ から$[-1,1]$ の間の加算誤差 $\varepsilon$ に近似する最小次数である。 また、古典的なクエリの複雑さは、任意の$s\geq 4$に対して$\widetilde{\Omega}((s/2)^{(\widetilde{\deg}_{2\varepsilon}(f)-1)/6})$で制限される。 その結果、量子と古典の分離はスパース・エルミート行列の任意の連続函数に対して指数関数であり、また、量子特異値変換によってスパース・エルミート行列の滑らかな函数を実装するための最適性を示す。 私たちが使った主なテクニックは、実数上の関数に対する双対多項式法、線形半無限計画法、三角行列である。

Let $A$ be an $s$-sparse Hermitian matrix, $f(x)$ be a univariate function, and $i, j$ be two indices. In this work, we investigate the query complexity of approximating $\bra{i} f(A) \ket{j}$. We show that for any continuous function $f(x):[-1,1]\rightarrow [-1,1]$, the quantum query complexity of computing $\bra{i} f(A) \ket{j}\pm \varepsilon/4$ is lower bounded by $\Omega(\widetilde{\deg}_\varepsilon(f))$. The upper bound is at most quadratic in $\widetilde{\deg}_\varepsilon(f)$ and is linear in $\widetilde{\deg}_\varepsilon(f)$ under certain mild assumptions on $A$. Here the approximate degree $\widetilde{\deg}_\varepsilon(f)$ is the minimum degree such that there is a polynomial of that degree approximating $f$ up to additive error $\varepsilon$ in the interval $[-1,1]$. We also show that the classical query complexity is lower bounded by $\widetilde{\Omega}((s/2)^{(\widetilde{\deg}_{2\varepsilon}(f)-1)/6})$ for any $s\geq 4$. Our results show that the quantum and classical separation is exponential for any continuous function of sparse Hermitian matrices, and also imply the optimality of implementing smooth functions of sparse Hermitian matrices by quantum singular value transformation. The main techniques we used are the dual polynomial method for functions over the reals, linear semi-infinite programming, and tridiagonal matrices.
翻訳日:2024-02-22 19:49:55 公開日:2024-02-21
# ICMC-ASR:ICASSP 2024車載マルチチャネル音声認識チャレンジ

ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge ( http://arxiv.org/abs/2401.03473v3 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Yue Li, Ao Zhang, Jiayao Sun, Lei Xie, Wei Chen, Pan Zhou, Hui Bu, Xin Xu, Binbin Zhang, Zhuo Chen, Jian Wu, Longbiao Wang, Eng Siong Chng, Sun Li(参考訳) 運転シナリオにおける音声認識研究を促進するため,ISCSLP 2022で行われたICSRC(Intelligent Cockpit Speech Recognition Challenge)の成功と,ICASSP 2024 In-car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challengeの立ち上げを行った。 この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データと、データ拡張のための40時間以上のノイズを収集する。 評価指標として、文字誤り率(cer)と結合最小置換文字誤り率(cpcer)を用いて、自動音声認識(asr)と自動音声ダイアリゼーション・認識(asdr)を含む2つのトラックを設定する。 ICMC-ASRチャレンジは98の参加チームを集め、両方のトラックで53の有効な結果を得た。 最後に、ustciflytekはasrトラックで13.16%、asdrトラックで21.48%、チャレンジベースラインと比べて絶対的に13.08%、51.4%改善した。

To promote speech processing and recognition research in driving scenarios, we build on the success of the Intelligent Cockpit Speech Recognition Challenge (ICSRC) held at ISCSLP 2022 and launch the ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challenge. This challenge collects over 100 hours of multi-channel speech data recorded inside a new energy vehicle and 40 hours of noise for data augmentation. Two tracks, including automatic speech recognition (ASR) and automatic speech diarization and recognition (ASDR) are set up, using character error rate (CER) and concatenated minimum permutation character error rate (cpCER) as evaluation metrics, respectively. Overall, the ICMC-ASR Challenge attracts 98 participating teams and receives 53 valid results in both tracks. In the end, first-place team USTCiflytek achieves a CER of 13.16% in the ASR track and a cpCER of 21.48% in the ASDR track, showing an absolute improvement of 13.08% and 51.4% compared to our challenge baseline, respectively.
翻訳日:2024-02-22 19:41:30 公開日:2024-02-21
# 反復的局所展開による効率的かつスケーラブルなグラフ生成

Efficient and Scalable Graph Generation through Iterative Local Expansion ( http://arxiv.org/abs/2312.11529v2 )

ライセンス: Link先を確認
Andreas Bergmeister, Karolis Martinkus, Nathana\"el Perraudin, Roger Wattenhofer(参考訳) グラフ生成モデルの分野では、広範な研究が行われている。 しかし、既存の方法の多くは、全ノード対にわたるジョイント分布全体の表現と、グローバルグラフとローカルグラフ構造の両方を同時にキャプチャする複雑さのため、大きなグラフに苦しむ。 これらの問題を克服するために,単一ノードを対象グラフに段階的に拡張してグラフを生成する手法を提案する。 各ステップにおいて、ノードとエッジは拡散を減らし、まずグローバル構造を構築し、次に局所的な詳細を精査することで局所的に追加される。 局所生成は、全てのノード対に対する結合分布全体のモデリングを回避し、マルチスケール生成による高い表現性を維持しながら、ノード数に対するサブクワッドラティックランタイムによる実質的な計算的節約を達成する。 提案手法は,5000ノード以上のグラフへのスケーリングを成功させながら,確立されたベンチマークデータセットで最先端のパフォーマンスを実現することを実証する。 また,本手法はトレーニング分布外のグラフへの外挿に成功し,既存の手法よりもはるかに優れた一般化能力を示す。

In the realm of generative models for graphs, extensive research has been conducted. However, most existing methods struggle with large graphs due to the complexity of representing the entire joint distribution across all node pairs and capturing both global and local graph structures simultaneously. To overcome these issues, we introduce a method that generates a graph by progressively expanding a single node to a target graph. In each step, nodes and edges are added in a localized manner through denoising diffusion, building first the global structure, and then refining the local details. The local generation avoids modeling the entire joint distribution over all node pairs, achieving substantial computational savings with subquadratic runtime relative to node count while maintaining high expressivity through multiscale generation. Our experiments show that our model achieves state-of-the-art performance on well-established benchmark datasets while successfully scaling to graphs with at least 5000 nodes. Our method is also the first to successfully extrapolate to graphs outside of the training distribution, showcasing a much better generalization capability over existing methods.
翻訳日:2024-02-22 19:41:04 公開日:2024-02-21
# コンテキスト認識ドメインの一般化に向けて : 限界伝達学習の利点と限界を理解する

Towards Context-Aware Domain Generalization: Understanding the Benefits and Limits of Marginal Transfer Learning ( http://arxiv.org/abs/2312.10107v2 )

ライセンス: Link先を確認
Jens M\"uller, Lars K\"uhmichel, Martin Rohbeck, Stefan T. Radev, Ullrich K\"othe(参考訳) 本研究では,入力された$X$のコンテキストに関する情報が,新しいドメインにおけるディープラーニングモデルの予測を改善する条件を解析する。 ドメイン一般化(DG)における境界伝達学習の研究に続いて、入力自身と同じドメインから派生したデータポイントの集合の置換不変表現としてコンテキストの概念を定式化する。 我々は,本手法が原則として得られる条件を理論的に分析し,実際に容易に検証可能な2つの必要条件を定式化する。 さらに,限界移動学習アプローチが堅牢性を約束する分布シフトの種別に関する洞察にも貢献する。 実証分析の結果,評価基準は好ましくないシナリオと好ましくないシナリオの両方を識別するのに有効であることがわかった。 最後に,out-of-distribution(ood)ドメインにおける不当な外挿処理をモデルが処理するシナリオを確実に検出し,潜在的な障害ケースを識別できることを実証する。 その結果、予測性能とロバスト性の間のトレードオフを回避し、最も予測的かつ最も堅牢なモデルを選択する方法を紹介した。

In this work, we analyze the conditions under which information about the context of an input $X$ can improve the predictions of deep learning models in new domains. Following work in marginal transfer learning in Domain Generalization (DG), we formalize the notion of context as a permutation-invariant representation of a set of data points that originate from the same domain as the input itself. We offer a theoretical analysis of the conditions under which this approach can, in principle, yield benefits, and formulate two necessary criteria that can be easily verified in practice. Additionally, we contribute insights into the kind of distribution shifts for which the marginal transfer learning approach promises robustness. Empirical analysis shows that our criteria are effective in discerning both favorable and unfavorable scenarios. Finally, we demonstrate that we can reliably detect scenarios where a model is tasked with unwarranted extrapolation in out-of-distribution (OOD) domains, identifying potential failure cases. Consequently, we showcase a method to select between the most predictive and the most robust model, circumventing the well-known trade-off between predictive performance and robustness.
翻訳日:2024-02-22 19:40:43 公開日:2024-02-21
# 拡散モデルによる音場の再構成

Reconstruction of Sound Field through Diffusion Models ( http://arxiv.org/abs/2312.08821v2 )

ライセンス: Link先を確認
Federico Miotello, Luca Comanducci, Mirco Pezzoli, Alberto Bernardini, Fabio Antonacci and Augusto Sarti(参考訳) 室内の音場を再構成することは、音制御や拡張現実(AR)、仮想現実(VR)など、いくつかのアプリケーションにとって重要な課題である。 本稿では,モーダル周波数範囲に着目して室内の音場の大きさを再現するためのデータ駆動生成モデルを提案する。 本稿では,拡張領域上の音場(sf-diff)を再構成するために訓練された条件付き脱音拡散確率モデル(ddpm)について初めて紹介する。 アーキテクチャは、異なる周波数で利用可能な限られた測定値のセットに条件付けし、ターゲット、未知の場所の音場を生成するように設計されている。 その結果,SF-Diffは,カーネル補間に基づく最先端のベースラインよりも高い精度で,正確な再構築を実現することができた。

Reconstructing the sound field in a room is an important task for several applications, such as sound control and augmented (AR) or virtual reality (VR). In this paper, we propose a data-driven generative model for reconstructing the magnitude of acoustic fields in rooms with a focus on the modal frequency range. We introduce, for the first time, the use of a conditional Denoising Diffusion Probabilistic Model (DDPM) trained in order to reconstruct the sound field (SF-Diff) over an extended domain. The architecture is devised in order to be conditioned on a set of limited available measurements at different frequencies and generate the sound field in target, unknown, locations. The results show that SF-Diff is able to provide accurate reconstructions, outperforming a state-of-the-art baseline based on kernel interpolation.
翻訳日:2024-02-22 19:40:24 公開日:2024-02-21
# 臨床テキストのニューラルマシン翻訳:多言語事前学習言語モデルとトランスファーラーニングに関する実証的研究

Neural Machine Translation of Clinical Text: An Empirical Investigation into Multilingual Pre-Trained Language Models and Transfer-Learning ( http://arxiv.org/abs/2312.07250v2 )

ライセンス: Link先を確認
Lifeng Han, Serge Gladkoff, Gleb Erofeev, Irina Sorokina, Betty Galiano, Goran Nenadic(参考訳) トランスフォーマー構造などの深層学習を用いた多言語ニューラルネットモデルを用いて,臨床用テキスト機械翻訳の検討を行う。 さらに,言語資源の不均衡問題に対処するために,多言語事前学習言語モデル(MMPLM)に基づく移動学習手法を用いた実験を行った。 3つのサブタスクに関する実験結果 1)臨床症例(CC) 2)臨床用語(CT)、および 3) オントロジ概念 (OC) は, ClinSpEn-2022における英語とスペイン語の臨床領域データの共有タスクにおいて, トップレベルのパフォーマンスを達成したことを示す。 さらに, 専門家による人体評価の結果, 臨床領域の微調整において, PLMが他の2つの大言語モデルよりも大きな差で勝利したことが明らかとなった。 最後に, 転写学習法は, WMT21fbモデルを用いて, WMT21fb自体の事前学習段階では見られなかった新しい言語空間のスペイン語に対応し, より多くの言語を調査するなど, 臨床知識変換の活用に適している。 これらの研究成果は、特に臨床や医療の分野で、ドメイン固有の機械翻訳の開発に光を当てることができる。 医療用テキスト分析と知識変換を改善するために,本研究に基づいてさらなる研究プロジェクトを実施できる。 我々のデータはhttps://github.com/HECTA-UoM/ClinicalNMTで公開されている。

We conduct investigations on clinical text machine translation by examining multilingual neural network models using deep learning such as Transformer based structures. Furthermore, to address the language resource imbalance issue, we also carry out experiments using a transfer learning methodology based on massive multilingual pre-trained language models (MMPLMs). The experimental results on three subtasks including 1) clinical case (CC), 2) clinical terminology (CT), and 3) ontological concept (OC) show that our models achieved top-level performances in the ClinSpEn-2022 shared task on English-Spanish clinical domain data. Furthermore, our expert-based human evaluations demonstrate that the small-sized pre-trained language model (PLM) won over the other two extra-large language models by a large margin, in the clinical domain fine-tuning, which finding was never reported in the field. Finally, the transfer learning method works well in our experimental setting using the WMT21fb model to accommodate a new language space Spanish that was not seen at the pre-training stage within WMT21fb itself, which deserves more exploitation for clinical knowledge transformation, e.g. to investigate into more languages. These research findings can shed some light on domain-specific machine translation development, especially in clinical and healthcare fields. Further research projects can be carried out based on our work to improve healthcare text analytics and knowledge transformation. Our data will be openly available for research purposes at https://github.com/HECTA-UoM/ClinicalNMT
翻訳日:2024-02-22 19:40:09 公開日:2024-02-21
# VitalLens:ライブ自撮り

VitalLens: Take A Vital Selfie ( http://arxiv.org/abs/2312.06892v3 )

ライセンス: Link先を確認
Philipp V. Rouast(参考訳) VitalLensは、自撮りビデオから心拍数や呼吸速度などの重要な兆候をリアルタイムで推定するアプリだ。 VitalLensは、ビデオと生理学的センサーデータの多様なデータセットに基づいてトレーニングされたコンピュータビジョンモデルを使用する。 289個の独特な参加者からなるvv-mediumを含む、さまざまなデータセットのパフォーマンスベンチマークを行った。 vitallensは、高速な推論速度を維持しながら、すべてのデータセットでposやmts-canを含む既存のメソッドを上回っている。 vv-medium では、vitalens は心拍数推定で 0.71 bpm、呼吸率推定で 0.76 bpm の平均絶対誤差を達成している。

This report introduces VitalLens, an app that estimates vital signs such as heart rate and respiration rate from selfie video in real time. VitalLens uses a computer vision model trained on a diverse dataset of video and physiological sensor data. We benchmark performance on several diverse datasets, including VV-Medium, which consists of 289 unique participants. VitalLens outperforms several existing methods including POS and MTTS-CAN on all datasets while maintaining a fast inference speed. On VV-Medium, VitalLens achieves mean absolute errors of 0.71 bpm for heart rate estimation, and 0.76 bpm for respiratory rate estimation.
翻訳日:2024-02-22 19:39:40 公開日:2024-02-21
# 複雑多目的最適化問題に対する事前進化モデル

Pre-Evolved Model for Complex Multi-objective Optimization Problems ( http://arxiv.org/abs/2312.06125v2 )

ライセンス: Link先を確認
Haokai Hong and Min Jiang(参考訳) 多目的最適化問題(MOP)は、複数の目的の同時最適化を必要とする。 進化的計算は、大規模決定変数、多くの目的、高価な評価関数による最適化問題を含む複雑なモップを解決するための有望なパラダイムであると多くの研究が示している。 しかし、既存の多目的進化アルゴリズム(MOEA)は、多種多様な複雑なMOPを解く際に、高品質な集団を生成する上で重大な課題に直面している。 特に、人口の異なる要件と制約は、様々な複雑なMOPに対処するMOEAの非効率性や非能率をもたらす。 そこで本稿では,MOEA が多様な複雑な MOP に対して高品質な人口を生み出すための事前進化の概念を提案する。 従来の変圧器アーキテクチャからインスピレーションを得て,プリ進化モデル(PEM)を構成するために,次元埋め込みと客観的符号化手法を考案した。 PEMは、かなりの数の既存のMOPでプリ進化している。 その後、新しい複雑なMOPを微進化させると、PEMは人口を次の世代へと変換し、パレート・最適前線を近似する。 さらに、新たなソリューションの評価を利用して、PEMを逐次更新し、様々な複雑なMOPを効率的に解決する。 実験の結果、PEMは複雑なMOOPにおいて最先端のMOEAよりも優れていた。

Multi-objective optimization problems (MOPs) necessitate the simultaneous optimization of multiple objectives. Numerous studies have demonstrated that evolutionary computation is a promising paradigm for solving complex MOPs, which involve optimization problems with large-scale decision variables, many objectives, and expensive evaluation functions. However, existing multi-objective evolutionary algorithms (MOEAs) encounter significant challenges in generating high-quality populations when solving diverse complex MOPs. Specifically, the distinct requirements and constraints of the population result in the inefficiency or even incompetence of MOEAs in addressing various complex MOPs. Therefore, this paper proposes the concept of pre-evolving for MOEAs to generate high-quality populations for diverse complex MOPs. Drawing inspiration from the classical transformer architecture, we devise dimension embedding and objective encoding techniques to configure the pre-evolved model (PEM). The PEM is pre-evolved on a substantial number of existing MOPs. Subsequently, when fine-evolving on new complex MOPs, the PEM transforms the population into the next generation to approximate the Pareto-optimal front. Furthermore, it utilizes evaluations on new solutions to iteratively update the PEM for subsequent generations, thereby efficiently solving various complex MOPs. Experimental results demonstrate that the PEM outperforms state-of-the-art MOEAs on a range of complex MOPs.
翻訳日:2024-02-22 19:39:27 公開日:2024-02-21
# 高次超thresholdイオン化の量子軌道処理における連続クーロン相互作用の影響

Impact of the continuum Coulomb interaction in quantum-orbit-based treatments of high-order above-threshold ionization ( http://arxiv.org/abs/2312.04989v2 )

ライセンス: Link先を確認
T. Rook, D. Habibovi\'c, L. Cruz Rodriguez, D. B. Milo\v{s}evi\'c, C. Figueira de Morisson Faria(参考訳) 再散乱量子軌道強磁場近似 (RQSFA) とクーロン量子軌道強磁場近似 (CQSFA) による光電子運動量分布の系統的比較を行った。 我々は、直接的、ハイブリッド的、複数の散乱したcqsfa軌道を除外し、単一の再散乱行為を行う軌道の寄与に焦点をあてる。 この軌道の部分集合は、後方散乱と前方散乱の軌道対に対するRQSFAとCQSFAの1対1の対応を確立することができる。 我々は、クーロンポテンシャルが特定の軌道対のイオン化および再散乱時間、再散乱によって決定される運動的制約、および特定の軌道対間の量子干渉に与える影響を評価する。 クーロンポテンシャルがイオン化と戻り時間をどのように変化させ、光電子運動量分布における干渉を解析した。 クーロン効果は、高エネルギーや中エネルギーの光電子エネルギーや短軌道では重要ではなく、連続体における低運動量域や長い電子抽出時間では、残留クーロン電位がより重要であることを示す。 また,両理論の異なる場パラメータに対する一致度を評価し,波長の増加とともに改善することを示す。

We perform a systematic comparison between photoelectron momentum distributions computed with the rescattered-quantum orbit strong-field approximation (RQSFA) and the Coulomb-quantum orbit strong-field approximation (CQSFA). We exclude direct, hybrid, and multiple scattered CQSFA trajectories, and focus on the contributions of trajectories that undergo a single act of rescattering. For this orbit subset, one may establish a one-to-one correspondence between the RQSFA and CQSFA contributions for backscattered and forward-scattered trajectory pairs. We assess the influence of the Coulomb potential on the ionization and rescattering times of specific trajectory pairs, kinematic constraints determined by rescattering, and quantum interference between specific pairs of trajectories. We analyze how the Coulomb potential alters their ionization and return times, and their interference in photoelectron momentum distributions. We show that Coulomb effects are not significant for high or medium photoelectron energies and shorter orbits, while, for lower momentum ranges or longer electron excursion times in the continuum, the residual Coulomb potential is more important. We also assess the agreement of both theories for different field parameters, and show that it improves with the increase of the wavelength.
翻訳日:2024-02-22 19:39:07 公開日:2024-02-21
# oracleとaiの議論で大きなゲームをする

Playing Large Games with Oracles and AI Debate ( http://arxiv.org/abs/2312.04792v3 )

ライセンス: Link先を確認
Xinyi Chen, Angelica Chen, Dean Foster, Elad Hazan(参考訳) 非常に多くのアクションを伴う繰り返しゲームにおける後悔の最小化について検討する。 このようなゲームは、議論によるAI安全性の設定に固有のものであり、より一般的には、アクションが言語に基づくゲームである。 オンラインゲームプレイのための既存のアルゴリズムは、アクション数における文単位の計算多項式を必要とし、大規模なゲームでは禁止される。 私たちはoracleベースのアルゴリズムを、oracleが自然にaiエージェントへのアクセスをモデル化すると考えている。 oracle accessでは、内部および外部の後悔を最小限に抑えることができます。 本稿では,後悔と文毎の計算が行動数に依存する内部後悔最小化のための新しい効率的なアルゴリズムを提案する。 我々は、AI Safety via Debateの設定において、アルゴリズム分析からの洞察の恩恵を示す実験で締めくくります。

We consider regret minimization in repeated games with a very large number of actions. Such games are inherent in the setting of AI safety via debate, and more generally games whose actions are language-based. Existing algorithms for online game playing require per-iteration computation polynomial in the number of actions, which can be prohibitive for large games. We thus consider oracle-based algorithms, as oracles naturally model access to AI agents. With oracle access, we characterize when internal and external regret can be minimized efficiently. We give a novel efficient algorithm for internal regret minimization whose regret and per-iteration computation depend logarithmically on the number of actions. We conclude with experiments in the setting of AI Safety via Debate that shows the benefit of insights from our algorithmic analysis.
翻訳日:2024-02-22 19:38:42 公開日:2024-02-21
# 多次元局所微分プライバシーが公平性に及ぼす影響について

On the Impact of Multi-dimensional Local Differential Privacy on Fairness ( http://arxiv.org/abs/2312.04404v3 )

ライセンス: Link先を確認
Karima Makhlouf, Heber H. Arcolezi, Sami Zhioua, Ghassen Ben Brahim, and Catuscia Palamidessi(参考訳) 自動意思決定システムは、人々の生活の中で連続的な決定を行うためにますます使われています。 操作されたデータの感度と結果の決定により、これらの技術、特に公平さとプライバシーを適切に利用するためには、いくつかの倫理的な懸念に対処する必要がある。 本稿では, 単一機密属性に対する集中型差分プライバシー (DP) やローカルDP (LDP) に着目した以前の研究と異なり, 複数属性 (多次元データ) が公平性に与える影響について検討する。 合成およびベンチマークデータセットの詳細な実験分析により、非常に関連する観測が明らかになった。 特に,(1)多次元 LDP は格差を低減するための効率的なアプローチであり,(2)低プライバシー保証においてのみ LDP の多次元的アプローチが重要であり,(3) 結果 Y 分布は,どの群が難易度に敏感であるかに重要な影響を与える。 最後に,MLアプリケーションの公正性と実用性を維持しつつ,効果的なプライバシ保護プラクティスの採用を実践者に対して指導する上での推奨事項として,私たちの知見を要約する。

Automated decision systems are increasingly used to make consequential decisions in people's lives. Due to the sensitivity of the manipulated data as well as the resulting decisions, several ethical concerns need to be addressed for the appropriate use of such technologies, in particular, fairness and privacy. Unlike previous work, which focused on centralized differential privacy (DP) or local DP (LDP) for a single sensitive attribute, in this paper, we examine the impact of LDP in the presence of several sensitive attributes (i.e., multi-dimensional data) on fairness. Detailed empirical analysis on synthetic and benchmark datasets revealed very relevant observations. In particular, (1) multi-dimensional LDP is an efficient approach to reduce disparity, (2) the multi-dimensional approach of LDP (independent vs. combined) matters only at low privacy guarantees, and (3) the outcome Y distribution has an important effect on which group is more sensitive to the obfuscation. Last, we summarize our findings in the form of recommendations to guide practitioners in adopting effective privacy-preserving practices while maintaining fairness and utility in ML applications.
翻訳日:2024-02-22 19:38:10 公開日:2024-02-21
# hidden yet quantizable: ランダム化試行による強度統合のための下限

Hidden yet quantifiable: A lower bound for confounding strength using randomized trials ( http://arxiv.org/abs/2312.03871v2 )

ライセンス: Link先を確認
Piersilvio De Bartolomeis, Javier Abad, Konstantin Donhauser, Fanny Yang(参考訳) ペースの速い精密医療の時代には、観察的研究が臨床における新しい治療法を適切に評価する上で重要な役割を果たしている。 しかし、観察されていない結合は、非ランダムデータから引き出された因果的結論を著しく損なう可能性がある。 本研究では,ランダム化試行を利用して未観測のコンバウンディングを定量化する手法を提案する。 まず、所定の閾値以上の強度で観測不能な散乱を検出する統計的試験を設計する。 次に, この試験を用いて, 観察されていない結合強度の漸近的に有効な下限を推定する。 いくつかの合成および半合成データセットに対する統計的テストの有効性と妥当性を評価する。 さらに, 実環境における観測されていないコンファウンディングの欠如と存在を, 下限が正しく識別できることを示す。

In the era of fast-paced precision medicine, observational studies play a major role in properly evaluating new treatments in clinical practice. Yet, unobserved confounding can significantly compromise causal conclusions drawn from non-randomized data. We propose a novel strategy that leverages randomized trials to quantify unobserved confounding. First, we design a statistical test to detect unobserved confounding with strength above a given threshold. Then, we use the test to estimate an asymptotically valid lower bound on the unobserved confounding strength. We evaluate the power and validity of our statistical test on several synthetic and semi-synthetic datasets. Further, we show how our lower bound can correctly identify the absence and presence of unobserved confounding in a real-world setting.
翻訳日:2024-02-22 19:37:49 公開日:2024-02-21
# LSTSVR-PI:特権情報を用いた最小二乗支援ベクトル回帰

LSTSVR-PI: Least square twin support vector regression with privileged information ( http://arxiv.org/abs/2312.02596v2 )

ライセンス: Link先を確認
Anuradha Kumari, M. Tanveer(参考訳) 教育環境では、教師は様々な教室の授業パターンにおいて重要な役割を果たす。 同様に、人間の学習のこの側面を反映して、特権情報(LUPI)パラダイムを用いた学習は、トレーニング段階で学習モデルを教えるための追加情報を導入する。 回帰モデルのツイン変種を訓練するための別のアプローチとして、特権情報(lstsvr-pi)を用いた新しい最小二乗支持ベクトル回帰(lstsvr-pi)がある。 提案した LSTSVR-PI はモデルの効率を高める線形方程式の系を解く。 さらに,提案モデルのRademacher複雑性に基づいた一般化誤差を確立し,構造的リスク最小化の原理を取り入れた。 LSTSVR-PIは、LUPIの現代パラダイムと古典的なLSTSVRのギャップを埋める。 さらに,提案モデルの性能を評価するため,様々な人工的および実世界のデータセットのベースラインモデルとともに数値実験を行った。 様々な実験と統計解析により,提案モデルの優越性が推察された。 さらに,本手法の適用例として,時系列データセットを用いて実験を行い,提案したLSTSVR-PIの優位性を示す。

In an educational setting, a teacher plays a crucial role in various classroom teaching patterns. Similarly, mirroring this aspect of human learning, the learning using privileged information (LUPI) paradigm introduces additional information to instruct learning models during the training stage. A different approach to train the twin variant of the regression model is provided by the new least square twin support vector regression using privileged information (LSTSVR-PI), which integrates the LUPI paradigm to utilize additional sources of information into the least square twin support vector regression. The proposed LSTSVR-PI solves system of linear equations which adds up to the efficiency of the model. Further, we also establish a generalization error bound based on the Rademacher complexity of the proposed model and incorporate the structural risk minimization principle. The proposed LSTSVR-PI fills the gap between the contemporary paradigm of LUPI and classical LSTSVR. Further, to assess the performance of the proposed model, we conduct numerical experiments along with the baseline models across various artificially generated and real-world datasets. The various experiments and statistical analysis infer the superiority of the proposed model. Moreover, as an application, we conduct experiments on time series datasets, which results in the superiority of the proposed LSTSVR-PI.
翻訳日:2024-02-22 19:37:38 公開日:2024-02-21
# tree of attack: 自動ジェイルブレイクブラックボックスllm

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically ( http://arxiv.org/abs/2312.02119v2 )

ライセンス: Link先を確認
Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi(参考訳) 大規模言語モデル(llm)は汎用的な機能を備えているが、人間設計のジェイルブレイクの普及によって示されるように、有害で偏りのある、有害なコンテンツを生み出し続けている。 本研究では,ターゲットLSMへのブラックボックスアクセスのみを必要とするジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAP は LLM を用いて、候補(攻撃)を反復的に洗練させ、生成したプロンプトの1つがターゲットをジェイルブレイクするまで、ツリー・オブ・シント推論を使用する。 重要なことに、ターゲットにプロンプトを送る前に、TAPはそれらを評価し、脱獄の可能性が低いものをプルークする。 Tree-of-Thought推論を使用することで、TAPはプロンプトとプルーニングの大きな検索スペースをナビゲートでき、ターゲットに送信されるクエリの総数を削減できる。 経験的評価では,TAP がジェイルブレイク状態の LLM (GPT4 と GPT4-Turbo を含む) を,少数のクエリのみを用いて80%以上のプロンプトで生成する。 興味深いことに、TAPはLlamaGuardのような最先端のガードレールで保護されたLLMをジェイルブレイクすることができる。 これは、ジェイルブレイクを生成するための以前の最先端ブラックボックスメソッドを大幅に改善する。

While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an LLM to iteratively refine candidate (attack) prompts using tree-of-thought reasoning until one of the generated prompts jailbreaks the target. Crucially, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks. Using tree-of-thought reasoning allows TAP to navigate a large search space of prompts and pruning reduces the total number of queries sent to the target. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4 and GPT4-Turbo) for more than 80% of the prompts using only a small number of queries. Interestingly, TAP is also capable of jailbreaking LLMs protected by state-of-the-art guardrails, e.g., LlamaGuard. This significantly improves upon the previous state-of-the-art black-box method for generating jailbreaks.
翻訳日:2024-02-22 19:37:16 公開日:2024-02-21
# InstructIR:人間の指示で高画質の画像復元

InstructIR: High-Quality Image Restoration Following Human Instructions ( http://arxiv.org/abs/2401.16468v3 )

ライセンス: Link先を確認
Marcos V. Conde, Gregor Geigle, Radu Timofte(参考訳) 画像復元は、劣化した観察から高品質のクリーンな画像を復元する基本的な問題である。 オールインワン画像復元モデルは, 劣化特異的情報を用いて, 様々な種類の画像や劣化レベルの画像の復元を効果的に行うことができる。 本稿では,画像復元モデルの指導に人間による指示を用いる最初の手法を提案する。 自然言語プロンプトが与えられれば,複数の劣化タイプを考慮した高品質画像の復元が可能となる。 本手法は,画像のデノイジング,デラリング,デブラリング,デハジング,(低光度)画像エンハンスメントなどの復元作業において,最新の結果を得る。 InstructIRは以前のオールインワンの復元方法よりも+1dBを改善する。 さらに,本データセットは,テキスト誘導画像の復元と改善に関する新たな研究のベンチマークである。 私たちのコード、データセット、モデルは、https://github.com/mv-lab/InstructIRで利用可能です。

Image restoration is a fundamental problem that involves recovering a high-quality clean image from its degraded observation. All-In-One image restoration models can effectively restore images from various types and levels of degradation using degradation-specific information as prompts to guide the restoration model. In this work, we present the first approach that uses human-written instructions to guide the image restoration model. Given natural language prompts, our model can recover high-quality images from their degraded counterparts, considering multiple degradation types. Our method, InstructIR, achieves state-of-the-art results on several restoration tasks including image denoising, deraining, deblurring, dehazing, and (low-light) image enhancement. InstructIR improves +1dB over previous all-in-one restoration methods. Moreover, our dataset and results represent a novel benchmark for new research on text-guided image restoration and enhancement. Our code, datasets and models are available at: https://github.com/mv-lab/InstructIR
翻訳日:2024-02-22 19:28:49 公開日:2024-02-21
# LEGOBench: 科学的リーダボード生成ベンチマーク

LEGOBench: Scientific Leaderboard Generation Benchmark ( http://arxiv.org/abs/2401.06233v2 )

ライセンス: Link先を確認
Shruti Singh, Shoaib Alam, Husain Malwat and Mayank Singh(参考訳) 論文の提出量は増え続けており、最新の最新研究について知るのが難しくなっている。 この課題に対処するために、科学的リーダーボードを生成するシステムを評価するベンチマークであるLEGOBenchを紹介します。 LEGOBenchは、arXiv上の22年間のプレプリントデータとPapersWithCodeポータル上の11k以上の機械学習リーダーボードから作成されている。 我々は4つのグラフベースと2つの言語モデルベースのリーダーボード生成タスク構成を示す。 我々は、一般的なエンコーダのみの科学言語モデルとデコーダのみの大規模言語モデルを評価する。 最先端のモデルは、legobenchの自動リーダーボード生成において著しいパフォーマンスの差を示している。 コードはGitHub(https://github.com/lingo-iitgn/LEGOBench )で、データセットはOSF(https://osf.io/9v2py/?view_only=6f91b0b510df498ba01595f8f278f94c )でホストされている。

The ever-increasing volume of paper submissions makes it difficult to stay informed about the latest state-of-the-art research. To address this challenge, we introduce LEGOBench, a benchmark for evaluating systems that generate scientific leaderboards. LEGOBench is curated from 22 years of preprint submission data on arXiv and more than 11k machine learning leaderboards on the PapersWithCode portal. We present four graph-based and two language model-based leaderboard generation task configurations. We evaluate popular encoder-only scientific language models as well as decoder-only large language models across these task configurations. State-of-the-art models showcase significant performance gaps in automatic leaderboard generation on LEGOBench. The code is available on GitHub ( https://github.com/lingo-iitgn/LEGOBench ) and the dataset is hosted on OSF ( https://osf.io/9v2py/?view_only=6f91b0b510df498ba01595f8f278f94c ).
翻訳日:2024-02-22 19:28:32 公開日:2024-02-21
# SH2:自撮り自撮り自撮り機

SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully ( http://arxiv.org/abs/2401.05930v2 )

ライセンス: Link先を確認
Jushi Kai, Tianhang Zhang, Hai Hu, Zhouhan Lin(参考訳) 大規模言語モデル(LLM)はテキスト生成において優れた性能を示す。 しかし、LSMはまだ幻覚に苦しんでいる。 本研究では,LLMがより真に復号するのに役立つ推論時間法,Self-Highlighted Hesitation (SH2)を提案する。 SH2は情報理論に根ざした単純な事実に基づいており、LSMの場合、低い確率で予測されるトークンは他のトークンよりも情報に富む傾向にある。 分析の結果, LLM による確率の低いトークンは, 名詞, 固有名詞, 形容詞などの事実情報と密接に関連している可能性が示唆された。 そこで本研究では,最も低い確率のトークンを選択し,それらを元のコンテキストに結合することにより,これらのトークンを生成前に繰り返し読み書きする「ハイライト」を提案する。 復号化の際には, 重み付けによる出力確率の差を強調するために, コントラストデコーディングを採用する。 実験結果から,新たなデータやモデルを必要としないSH2は,LLMが事実知識を抽出し,幻覚的コンテキストを識別するのに役立つことが示された。 sh2はllama-7b、llama2-7b、mistral-7bを複数の幻覚タスクで改善した。

Large language models (LLMs) demonstrate great performance in text generation. However, LLMs are still suffering from hallucinations. In this work, we propose an inference-time method, Self-Highlighted Hesitation (SH2), to help LLMs decode more truthfully. SH2 is based on a simple fact rooted in information theory that for an LLM, the tokens predicted with lower probabilities are prone to be more informative than others. Our analysis shows that the tokens assigned with lower probabilities by an LLM are more likely to be closely related to factual information, such as nouns, proper nouns, and adjectives. Therefore, we propose to ``highlight'' the factual information by selecting the tokens with the lowest probabilities and concatenating them to the original context, thus forcing the model to repeatedly read and hesitate on these tokens before generation. During decoding, we also adopt contrastive decoding to emphasize the difference in the output probabilities brought by the hesitation. Experimental results demonstrate that our SH2, requiring no additional data or models, can effectively help LLMs elicit factual knowledge and distinguish hallucinated contexts. Significant and consistent improvements are achieved by SH2 for LLaMA-7b, LLaMA2-7b and Mistral-7b on multiple hallucination tasks.
翻訳日:2024-02-22 19:28:09 公開日:2024-02-21
# ango:中国ドメインにおける世代指向言語モデルの次世代評価ベンチマーク

ANGO: A Next-Level Evaluation Benchmark For Generation-Oriented Language Models In Chinese Domain ( http://arxiv.org/abs/2401.04898v2 )

ライセンス: Link先を確認
Bingchao Wang(参考訳) 近年,様々な大規模言語モデル(llm)評価データセットが出現しているが,そのほとんどは,ゆがんだランキングやモデルの能力分析の難しさに問題がある。 そこで本稿では,中国のマルチチョイス質問評価ベンチマークansoを紹介する。 ANGOは、初めてキーポイント分類標準を提案し、ANGOの各質問は複数のキーポイントに対応し、評価結果の解釈可能性を大幅に向上させる。 実際の人間の性能に基づいて,ANGO質問を9つの難易度に分割し,モデルトレーニングのためのより正確なガイダンスを提供する。 データ漏洩の影響を最小限に抑え、ANGOの革新的な機能を完全に活用するために、独占的なサンプリング戦略と、迅速なテストセットイテレーションをサポートする新しい評価フレームワークを設計しました。 実験の結果,ANGOはモデルに強い課題を呈し,既存のベンチマークと比較して評価結果のさらなる詳細を明らかにすることができた。

Recently, various Large Language Models (LLMs) evaluation datasets have emerged, but most of them have issues with distorted rankings and difficulty in model capabilities analysis. Addressing these concerns, this paper introduces ANGO, a Chinese multi-choice question evaluation benchmark. ANGO proposes Keypoint categorization standard for the first time, each question in ANGO can correspond to multiple keypoints, effectively enhancing interpretability of evaluation results. Base on performance of real humans, we build a quantifiable question difficulty standard and divide ANGO questions into 9 difficulty levels, which provide more precise guidance for model training. To minimize data leakage impact and fully leverage ANGO's innovative features, we have engineered exclusive sampling strategies and a new evaluation framework that support swift testset iteration. Our experiments demonstrate that ANGO poses a stronger challenge to models and reveals more details in evaluation result compared to existing benchmarks.
翻訳日:2024-02-22 19:27:45 公開日:2024-02-21
# GNNShap:シェープ値を用いた高速かつ正確なGNN説明

GNNShap: Fast and Accurate GNN Explanations using Shapley Values ( http://arxiv.org/abs/2401.04829v2 )

ライセンス: Link先を確認
Selahattin Akkas and Ariful Azad(参考訳) グラフニューラルネットワーク(GNN)は、科学領域にまたがる多くの応用を持つグラフのための一般的な機械学習モデルである。 しかし、GNNはブラックボックスモデルと考えられており、モデルがどのように予測を行うかを理解するのは難しい。 game theoric shapley value approachは、他の領域での一般的な説明方法であるが、グラフについてはよく研究されていない。 シャプリー値に基づくgnnの説明を提唱する研究もあるが、いくつかの制限がある: シャプリー値の近似に限定されたサンプルを考える; 主に小さな結合サイズと大きな結合サイズに焦点を当てる; それらは他の説明法よりも桁違いに遅く、中程度のグラフにも適用できない。 本稿では,グラフの自然な説明や細かな説明を提供するため,エッジの説明を提供するgnnshapを提案する。 この制限を克服するために,すべての結合サイズからサンプリングし,gpu上でサンプリングを並列化し,バッチ処理によるモデル予測を高速化する。 GNNShapは、実世界のデータセットのベースラインよりも優れた忠実度スコアと高速な説明を提供する。 コードはhttps://github.com/HipGraph/GNNShapで公開されている。

Graph neural networks (GNNs) are popular machine learning models for graphs with many applications across scientific domains. However, GNNs are considered black box models, and it is challenging to understand how the model makes predictions. Game theoric Shapley value approaches are popular explanation methods in other domains but are not well-studied for graphs. Some studies have proposed Shapley value based GNN explanations, yet they have several limitations: they consider limited samples to approximate Shapley values; some mainly focus on small and large coalition sizes, and they are an order of magnitude slower than other explanation methods, making them inapplicable to even moderate-size graphs. In this work, we propose GNNShap, which provides explanations for edges since they provide more natural explanations for graphs and more fine-grained explanations. We overcome the limitations by sampling from all coalition sizes, parallelizing the sampling on GPUs, and speeding up model predictions by batching. GNNShap gives better fidelity scores and faster explanations than baselines on real-world datasets. The code is available at https://github.com/HipGraph/GNNShap.
翻訳日:2024-02-22 19:27:29 公開日:2024-02-21
# MLCA-AVSR:多層クロスアテンションフュージョンに基づく音声認識

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition ( http://arxiv.org/abs/2401.03424v2 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Pan Zhou, Lei Xie(参考訳) 雑音の多い環境では自動音声認識(ASR)システムが大幅に劣化する一方、音声-視覚音声認識(AVSR)システムはノイズ不変の視覚的手がかりでオーディオストリームを補完し、システムの堅牢性を向上させる。 しかし、現在の研究では、モダリティ特徴学習中の文脈関係を考慮せずに、モダリティ固有のエンコーダの出力のようなよく学習されたモダリティ特徴の融合に重点が置かれている。 本研究では,多層クロスアテンション融合に基づくAVSR(MLCA-AVSR)アプローチを提案する。 MISP2022-AVSR Challengeデータセットによる実験結果から,提案システムの有効性が示され,Eval集合上での最小置換文字誤り率(cpCER)が30.57%,Eval集合において最大3.17%向上した。 複数のシステムの融合に続いて、提案手法は第1位システムを超え、このデータセット上で29.13%の新しいSOTA cpCERを確立する。

While automatic speech recognition (ASR) systems degrade significantly in noisy environments, audio-visual speech recognition (AVSR) systems aim to complement the audio stream with noise-invariant visual cues and improve the system's robustness. However, current studies mainly focus on fusing the well-learned modality features, like the output of modality-specific encoders, without considering the contextual relationship during the modality feature learning. In this study, we propose a multi-layer cross-attention fusion based AVSR (MLCA-AVSR) approach that promotes representation learning of each modality by fusing them at different levels of audio/visual encoders. Experimental results on the MISP2022-AVSR Challenge dataset show the efficacy of our proposed system, achieving a concatenated minimum permutation character error rate (cpCER) of 30.57% on the Eval set and yielding up to 3.17% relative improvement compared with our previous system which ranked the second place in the challenge. Following the fusion of multiple systems, our proposed approach surpasses the first-place system, establishing a new SOTA cpCER of 29.13% on this dataset.
翻訳日:2024-02-22 19:27:08 公開日:2024-02-21
# CaMML:大規模モデルのためのコンテキスト対応マルチモーダル学習システム

CaMML: Context-Aware Multimodal Learner for Large Models ( http://arxiv.org/abs/2401.03149v2 )

ライセンス: Link先を確認
Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li(参考訳) 本研究では,大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を提案する。 軽量モジュールであるCaMMLは、マルチモーダルなコンテキストサンプルを大規模モデルにシームレスに統合することにより、類似したドメイン固有の最新の情報から知識を導き出し、基盤となる推論を行う。 重要なことは、CaMMLは高度にスケーラブルであり、階層設計のため、長いマルチモーダルコンテキストの例を効率的に扱うことができる。 CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。 注目すべきなのは、CaMML-13Bは、広く認識されている10以上のマルチモーダルベンチマークデータセット上で、外部リソースを統合することなく、顕著なマージンでLLaVA-1.5 (13B)を超える最先端のパフォーマンスを達成することだ。 さらに,CaMMLの内部動作を調べるための広範囲なアブレーション研究を行い,実世界の課題に対処するための質的分析を行った。

In this work, we introduce Context-Aware MultiModal Learner (CaMML), for tuning large multimodal models (LMMs). CaMML, a lightweight module, is crafted to seamlessly integrate multimodal contextual samples into large models, thereby empowering the model to derive knowledge from analogous, domain-specific, up-to-date information and make grounded inferences. Importantly, CaMML is highly scalable and can efficiently handle lengthy multimodal context examples owing to its hierarchical design. Based on CaMML, we have developed two multimodal models, CaMML-7B and CaMML-13B, that have shown exceptional performance across an array of benchmark datasets for multimodal tasks. Remarkably, CaMML-13B achieves the state-of-the-art performance on over ten widely recognized multimodal benchmark datasets, surpassing LLaVA-1.5 (13B) with a noticeable margin, without integration of any external resources. Moreover, we have conducted extensive ablative studies to inspect the inner workings of CaMML and performed qualitative analyses to showcase its effectiveness in handling real-world challenging cases.
翻訳日:2024-02-22 19:26:41 公開日:2024-02-21
# 脆弱性の詳細:グラフベースの検出器で識別された脆弱性コードのきめ細かい情報を見つける

The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors ( http://arxiv.org/abs/2401.02737v2 )

ライセンス: Link先を確認
Baijun Cheng, Kailong Wang, Cuiyun Gao, Xiapu Luo, Yulei Sui, Li Li, Yao Guo, Xiangqun Chen, Haoyu Wang(参考訳) 脆弱性検出はソフトウェア開発ライフサイクルにおいて重要なコンポーネントです。 既存の脆弱性検出装置、特にディープラーニング(DL)モデルに基づく検出は、高い有効性を実現している。 Despite their capability of detecting vulnerable code snippets from given code fragments, the detectors are typically unable to further locate the fine-grained information pertaining to the vulnerability, such as the precise vulnerability triggering locations.In this paper, we propose VULEXPLAINER, a tool for automatically locating vulnerability-critical code lines from coarse-level vulnerable code snippets reported by DL-based detectors.Our approach takes advantage of the code structure and the semantics of the vulnerabilities. 具体的には、プログラムスライシングを利用して脆弱性トリガーと脆弱性依存のステートメントを含む重要なプログラムパスのセットを取得し、脆弱性に関連するデータフローとして最も重要なもの(サブグラフ)をランク付けします。 vulexplainerは、最先端のグラフ表現(gp)ベースの脆弱性検出器4つ、つまり、脆弱性をトリガーするコードステートメントを8つの一般的なc/c++脆弱性に対して90%の精度でフラグ付けし、広く使用されている5つのgnnベースの説明アプローチよりも優れていることを実証する。 vulexplainerは、プログラムスライシングとディープラーニングを統合することで、脆弱なコードフラグメントの解釈を可能にするという、有望な研究ラインへの洞察を提供するものだ。

Vulnerability detection is a crucial component in the software development lifecycle. Existing vulnerability detectors, especially those based on deep learning (DL) models, have achieved high effectiveness. Despite their capability of detecting vulnerable code snippets from given code fragments, the detectors are typically unable to further locate the fine-grained information pertaining to the vulnerability, such as the precise vulnerability triggering locations.In this paper, we propose VULEXPLAINER, a tool for automatically locating vulnerability-critical code lines from coarse-level vulnerable code snippets reported by DL-based detectors.Our approach takes advantage of the code structure and the semantics of the vulnerabilities. Specifically, we leverage program slicing to get a set of critical program paths containing vulnerability-triggering and vulnerability-dependent statements and rank them to pinpoint the most important one (i.e., sub-graph) as the data flow associated with the vulnerability. We demonstrate that VULEXPLAINER performs consistently well on four state-of-the-art graph-representation(GP)-based vulnerability detectors, i.e., it can flag the vulnerability-triggering code statements with an accuracy of around 90% against eight common C/C++ vulnerabilities, outperforming five widely used GNN-based explanation approaches. The experimental results demonstrate the effectiveness of VULEXPLAINER, which provides insights into a promising research line: integrating program slicing and deep learning for the interpretation of vulnerable code fragments.
翻訳日:2024-02-22 19:26:19 公開日:2024-02-21
# Beyond Fidelity: 学習ベース検出器の脆弱性ローカライゼーションについて

Beyond Fidelity: Explaining Vulnerability Localization of Learning-based Detectors ( http://arxiv.org/abs/2401.02686v2 )

ライセンス: Link先を確認
Baijun Cheng, Shengming Zhao, Kailong Wang, Meizhen Wang, Guangdong Bai, Ruitao Feng, Yao Guo, Lei Ma, Haoyu Wang(参考訳) 近年,ディープラーニング(DL)モデルに基づく脆弱性検出装置の有効性が証明されている。 しかし、これらの検出器の意思決定プロセスを取り巻く不透明さは、セキュリティアナリストの理解を困難にしている。 これに対処するために,コンピュータビジョンや自然言語処理といった他の領域で有効な重要な特徴を強調することにより,予測を説明するための様々な説明手法が提案されている。 残念ながら、詳細な脆弱性関連コード行などの脆弱性クリティカルな機能の詳細な評価は、これらの説明によって学習され、理解されている。 本研究では,まず,グラフおよびシーケンス表現に基づく脆弱性検出のための10個の説明手法の性能を,忠実度と脆弱性線カバレッジ率を含む2つの定量的指標を用いて評価した。 その結果、忠実性だけではこれらのアプローチを評価するには不十分であり、忠実性は異なるデータセットや検出器にまたがる大きな変動を引き起こすことが分かった。 その後,説明手法によって報告された脆弱性関連コード行の精度を確認し,そのタスクの精度の低下を確認した。 これは、重要な特徴の選択における説明者の非効率性と、dlベースの検出器によって学習された無関係なアーティファクトの存在に起因する。

Vulnerability detectors based on deep learning (DL) models have proven their effectiveness in recent years. However, the shroud of opacity surrounding the decision-making process of these detectors makes it difficult for security analysts to comprehend. To address this, various explanation approaches have been proposed to explain the predictions by highlighting important features, which have been demonstrated effective in other domains such as computer vision and natural language processing. Unfortunately, an in-depth evaluation of vulnerability-critical features, such as fine-grained vulnerability-related code lines, learned and understood by these explanation approaches remains lacking. In this study, we first evaluate the performance of ten explanation approaches for vulnerability detectors based on graph and sequence representations, measured by two quantitative metrics including fidelity and vulnerability line coverage rate. Our results show that fidelity alone is not sufficient for evaluating these approaches, as fidelity incurs significant fluctuations across different datasets and detectors. We subsequently check the precision of the vulnerability-related code lines reported by the explanation approaches, and find poor accuracy in this task among all of them. This can be attributed to the inefficiency of explainers in selecting important features and the presence of irrelevant artifacts learned by DL-based detectors.
翻訳日:2024-02-22 19:25:51 公開日:2024-02-21
# コードのためのマスク言語モデルによって統計的に学習される構文能力

Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? ( http://arxiv.org/abs/2401.01512v2 )

ライセンス: Link先を確認
Alejandro Velasco, David N. Palacio, Daniel Rodriguez-Cardenas and Denys Poshyvanyk(参考訳) 本稿では,コード補完タスクにおけるマスケッド言語モデル(MLM)の評価の限界について論じる。 精度に基づく測定を頼りにすることで、プログラミング言語の構文規則を無視してモデルの能力を過大評価する可能性があることを強調する。 これらの課題に対処するために,MLMの評価を高めるために,SyntaxEvalと呼ばれる手法を導入する。 SyntaxEvalは、抽象構文木(AST)に基づいて入力されたモデルの要素をマスキングするプロセスを自動化する。 GitHubリポジトリのデータを用いて,2つのMLMのケーススタディを行った。 その結果,ノードタイプとMLMの精度の間に負の因果効果が認められた。 研究中のMDMはいくつかの構文的能力の予測に失敗する。

This paper discusses the limitations of evaluating Masked Language Models (MLMs) in code completion tasks. We highlight that relying on accuracy-based measurements may lead to an overestimation of models' capabilities by neglecting the syntax rules of programming languages. To address these issues, we introduce a technique called SyntaxEval in which Syntactic Capabilities are used to enhance the evaluation of MLMs. SyntaxEval automates the process of masking elements in the model input based on their Abstract Syntax Trees (ASTs). We conducted a case study on two popular MLMs using data from GitHub repositories. Our results showed negative causal effects between the node types and MLMs' accuracy. We conclude that MLMs under study fail to predict some syntactic capabilities.
翻訳日:2024-02-22 19:25:30 公開日:2024-02-21
# 光キャビティにおける分子回転の偏光子

Polaritons under Extensive Disordered Molecular Rotation in Optical Cavities ( http://arxiv.org/abs/2312.16891v2 )

ライセンス: Link先を確認
Wei Liu, Jingqi Chen and Wenjie Dou(参考訳) 本研究では,100万個の分子を含む光キャビティにおけるポラリトンの動的挙動について検討し,分子と光子のカップリングに対する分子回転と準位障害の影響を強調した。 厳密な理論シミュレーションと数値解析を通じて、この複雑な環境におけるポラリトンの形成とスペクトル特性を体系的に探究する。 以上の結果から,分子の回転運動はキャビティ内の電磁場分布に大きく影響し,ポラリトン特性に異なる変化がみられた。 同時に、レベル障害の存在は様々なエネルギー準位構造を誘導し、ポラリトンのエネルギー分布に影響を与える。 これらの因子の包括的検討は、大規模空洞系における分子と光子の複雑な相互作用に関する貴重な洞察を与える。 この研究は、分子-光子カップリングの基本的な理解を深めるだけでなく、光学キャビティの設計と探索における実践的応用のための理論的ガイダンスを提供する。

This study investigates the dynamic behavior of polaritons in an optical cavity containing one million molecules, emphasizing the influence of molecular rotation and level disorder on the coupling between molecules and photons. Through rigorous theoretical simulations and numerical analyses, we systematically explore the formation and spectral characteristics of polaritons in this complex environment. Our findings reveal that the rotational motion of molecules significantly affects the electromagnetic field distribution within the cavity, leading to distinct alterations in polariton properties. Simultaneously, the presence of level disorder induces diverse energy level structures, influencing the energy distribution of polaritons. The comprehensive examination of these factors provides valuable insights into the intricate interplay between molecules and photons in large-scale cavity systems. This research not only advances the fundamental understanding of molecular-photon coupling but also offers theoretical guidance for practical applications in the design and exploration of optical cavities.
翻訳日:2024-02-22 19:25:19 公開日:2024-02-21
# オフダイナミックス強化学習におけるFew-Shot転送の保守的アプローチ

A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning ( http://arxiv.org/abs/2312.15474v2 )

ライセンス: Link先を確認
Paul Daoudi, Christophe Prieur, Bogdan Robu, Merwan Barlier, Ludovic Dos Santos(参考訳) オフダイナミックス強化学習(ODRL)は、異なるが類似したダイナミクスを特徴とする、ソース環境からターゲット環境へポリシーを転送することを目指している。 この文脈では、従来のRLエージェントは、ソース環境のダイナミクスに過度に依存しており、結果として、この環境で優れているが、ターゲット環境において適切なパフォーマンスを提供することができないポリシーが発見される。 数ショットのフレームワークでは、より効果的な転送を容易にするために、ターゲット環境からの遷移が限定的に導入される。 本稿では,最近の模倣学習と保守的rlアルゴリズムの進歩に触発された革新的アプローチを提案する。 提案手法では,ソース学習ポリシーによって生成された軌道を規制するペナルティを導入する。 対象環境へのアクセスが極めて制限された多様なオフダイナミックス条件を示す様々な環境を対象に,本手法の評価を行った。 これらの実験には現実世界の応用に関連する高次元システムが含まれる。 多くのテストシナリオにおいて,提案手法は既存のベースラインと比較して性能改善を示す。

Off-dynamics Reinforcement Learning (ODRL) seeks to transfer a policy from a source environment to a target environment characterized by distinct yet similar dynamics. In this context, traditional RL agents depend excessively on the dynamics of the source environment, resulting in the discovery of policies that excel in this environment but fail to provide reasonable performance in the target one. In the few-shot framework, a limited number of transitions from the target environment are introduced to facilitate a more effective transfer. Addressing this challenge, we propose an innovative approach inspired by recent advancements in Imitation Learning and conservative RL algorithms. The proposed method introduces a penalty to regulate the trajectories generated by the source-trained policy. We evaluate our method across various environments representing diverse off-dynamics conditions, where access to the target environment is extremely limited. These experiments include high-dimensional systems relevant to real-world applications. Across most tested scenarios, our proposed method demonstrates performance improvements compared to existing baselines.
翻訳日:2024-02-22 19:25:03 公開日:2024-02-21
# 生成aiのためのメッセージブローカーに向けて:調査、挑戦、機会

Towards Message Brokers for Generative AI: Survey, Challenges, and Opportunities ( http://arxiv.org/abs/2312.14647v2 )

ライセンス: Link先を確認
Alaa Saleh, Roberto Morabito, Sasu Tarkoma, Susanna Pirttikangas and Lauri Lov\'en(参考訳) 今日のデジタル世界では、Large Language Models(LLMs)のようなジェネレーティブ人工知能(GenAI)がますます普及し、多様なアプリケーションにまたがる範囲を広げている。 この採用の増加により、データ中心のGenAIモデルに対する需要が大幅に増加し、堅牢なデータ通信インフラの必要性が浮かび上がっている。 このニーズの中心はメッセージブローカで、さまざまなシステムコンポーネント内でデータ転送に必要なチャネルとして機能します。 この調査は、従来のメッセージブローカと現代のメッセージブローカを総合的に分析することを目的としており、一般的なプラットフォームの比較研究を提供している。 本研究は,オープンソースの可用性,統合監視ツール,メッセージ優先順位付け機構,並列処理機能,信頼性,分散とクラスタリング機能,認証プロセス,データ永続化戦略,耐障害性,スケーラビリティなど,数多くの基準を検討する。 さらに、各メッセージブローカの設計と運用が課す固有の制約についても検討し、これらの制限が現実世界の適用性を理解する上で重要であることを認識した。 最後に,genaiコンテキストに特化したメッセージブローカ機構の強化について検討し,汎用的なメッセージブローカフレームワークの開発を重要視する。 このようなフレームワークは、近い将来、GenAIの動的かつ増大する要求に対処して、迅速な適応を実現することができるだろう。 この二元的アプローチを通じて、我々は、GenAIデータ通信の領域における将来のイノベーションとインフラの進歩を導くための基礎的なコンペディションに貢献するつもりです。

In today's digital world, Generative Artificial Intelligence (GenAI) such as Large Language Models (LLMs) is becoming increasingly prevalent, extending its reach across diverse applications. This surge in adoption has sparked a significant increase in demand for data-centric GenAI models, highlighting the necessity for robust data communication infrastructures. Central to this need are message brokers, which serve as essential channels for data transfer within various system components. This survey aims to delve into a comprehensive analysis of traditional and modern message brokers, offering a comparative study of prevalent platforms. Our study considers numerous criteria including, but not limited to, open-source availability, integrated monitoring tools, message prioritization mechanisms, capabilities for parallel processing, reliability, distribution and clustering functionalities, authentication processes, data persistence strategies, fault tolerance, and scalability. Furthermore, we explore the intrinsic constraints that the design and operation of each message broker might impose, recognizing that these limitations are crucial in understanding their real-world applicability. Finally, this study examines the enhancement of message broker mechanisms specifically for GenAI contexts, emphasizing the criticality of developing a versatile message broker framework. Such a framework would be poised for quick adaptation, catering to the dynamic and growing demands of GenAI in the foreseeable future. Through this dual-pronged approach, we intend to contribute a foundational compendium that can guide future innovations and infrastructural advancements in the realm of GenAI data communication.
翻訳日:2024-02-22 19:24:46 公開日:2024-02-21
# Union-free Generic Depthによる機械学習アルゴリズムの比較

Comparing Machine Learning Algorithms by Union-Free Generic Depth ( http://arxiv.org/abs/2312.12839v3 )

ライセンス: Link先を確認
Hannah Blocher, Georg Schollmeyer, Malte Nalenz, Christoph Jansen(参考訳) 本稿では,深度関数の概念に基づく部分順序集合を記述的に解析するフレームワークを提案する。 線形空間や距離空間における集中的な研究にもかかわらず、部分順序のような非標準データ型に対する深さ関数についてはほとんど議論がない。 我々は、よく知られたsimplicial depthをすべての部分順序、union-free generic (ufg) depthの集合に適応させる。 さらに,多次元性能測定に基づく機械学習アルゴリズムの比較のために,我々の ufg 深度を利用する。 具体的には、標準ベンチマークデータセットのサンプルに対する分類器比較の2つの例を示す。 本結果は, ufg 法に基づく多種多様な解析手法を有望に示すものである。 さらに,本手法が既存のベンチマーク手法と大きく異なることを概説し,分類比較に関する活発な議論に新たな視点を加えている。

We propose a framework for descriptively analyzing sets of partial orders based on the concept of depth functions. Despite intensive studies in linear and metric spaces, there is very little discussion on depth functions for non-standard data types such as partial orders. We introduce an adaptation of the well-known simplicial depth to the set of all partial orders, the union-free generic (ufg) depth. Moreover, we utilize our ufg depth for a comparison of machine learning algorithms based on multidimensional performance measures. Concretely, we provide two examples of classifier comparisons on samples of standard benchmark data sets. Our results demonstrate promisingly the wide variety of different analysis approaches based on ufg methods. Furthermore, the examples outline that our approach differs substantially from existing benchmarking approaches, and thus adds a new perspective to the vivid debate on classifier comparison.
翻訳日:2024-02-22 19:24:19 公開日:2024-02-21
# LLMによるスマートコントラクトの自動要約

Automated Smart Contract Summarization via LLMs ( http://arxiv.org/abs/2402.04863v3 )

ライセンス: Link先を確認
Yingjie Mao, Xiaoqi Li, Zongwei Li, Wenkai Li(参考訳) 自動コード要約生成技術はスマートコントラクトの開発と保守に広く利用されている。 近年,Large Language Models (LLMs) の出現に伴い,Gemini はマルチモーダル入力をサポートする最初のLMM (Large Multimodal Models) として注目されている。 しかし、LMMがマルチモーダル入力から契約コード要約を生成する方法は不明である。 本稿では,実世界のスマートコントラクト上でのGeminiの評価,MMTransとの比較,マルチモーダルプロンプトの組み合わせによる契約コード要約の方法について検討する。 我々は、生成した要約の質を測定するために、広く使われている指標(BLEU、METEOR、ROUGE-L)を採用する。 実験の結果,METEORとROUGE-Lの3ショットプロンプトで生成されたコードコメントに対して,Gemini-Pro-Visionの21.17\%と21.05\%のスコアが得られた。 上のスコアは、ワンショットと5ショットプロンプトで生成されたスコアよりも優れている。

Automatic code Summarization generation technology is widely used in the development and maintenance of smart contracts. In recent years, with the advent of Large Language Models (LLMs), Gemini has received a lot of attention as the first Large Multimodal Models (LMMs) to support multimodal input. However, it is unclear how LMMs can generate contract code summarization from multimodal inputs. In this paper, we focus on evaluating Gemini on real-world smart contracts, comparing it to the MMTrans, and exploring how to combine multimodal prompts to generate a contract code summarization. We adopt several widely used metrics (BLEU, METEOR, and ROUGE-L) to measure the quality of the generated summarization. Our experiments show that Gemini-Pro-Vision achieves 21.17\% and 21.05\% scores for code comments generated by three-shot prompts under METEOR and ROUGE-L metrics. The above scores are better than those generated by one-shot and five-shot prompts.
翻訳日:2024-02-22 19:17:05 公開日:2024-02-21
# コヒーシブサブグラフ認識を用いたグラフコントラスト学習

Graph Contrastive Learning with Cohesive Subgraph Awareness ( http://arxiv.org/abs/2401.17580v2 )

ライセンス: Link先を確認
Yucheng Wu, Leye Wang, Xiao Han, and Han-Jia Ye(参考訳) グラフコントラスト学習(gcl)は、社会的および生物医学的ネットワークを含む多様なグラフの表現を学ぶための最先端の戦略として登場した。 GCLは、一様ノードドロップのような確率グラフトポロジーの増大を利用して拡張グラフを生成する。 しかし、このような確率的拡張は、グラフの固有特性を著しく損ね、次の表現学習過程を劣化させる可能性がある。 グラフの強化と学習過程において,凝集性部分グラフの認識を取り入れることで,GCL性能を向上させる可能性が示唆された。 そこで我々はCTAugと呼ばれる新しい統合フレームワークを提案し,結合認識を様々なGCL機構にシームレスに統合する。 特に、CTAugは、トポロジー強化とグラフ学習強化の2つの特別なモジュールから構成されている。 前者のモジュールは凝集特性を注意深く保存する拡張グラフを生成し、後者のモジュールはグラフエンコーダのサブグラフパターンを識別する能力を強化する。 理論的解析によると、CTAugは既存のGCLメカニズムを厳密に改善できる。 実証実験により、CTAugがグラフ表現学習、特に高次グラフに対して最先端のパフォーマンスを達成できることが確認された。 コードはhttps://doi.org/10.5281/zenodo.10594093、またはhttps://github.com/wuyucheng2002/CTAugで入手できる。

Graph contrastive learning (GCL) has emerged as a state-of-the-art strategy for learning representations of diverse graphs including social and biomedical networks. GCL widely uses stochastic graph topology augmentation, such as uniform node dropping, to generate augmented graphs. However, such stochastic augmentations may severely damage the intrinsic properties of a graph and deteriorate the following representation learning process. We argue that incorporating an awareness of cohesive subgraphs during the graph augmentation and learning processes has the potential to enhance GCL performance. To this end, we propose a novel unified framework called CTAug, to seamlessly integrate cohesion awareness into various existing GCL mechanisms. In particular, CTAug comprises two specialized modules: topology augmentation enhancement and graph learning enhancement. The former module generates augmented graphs that carefully preserve cohesion properties, while the latter module bolsters the graph encoder's ability to discern subgraph patterns. Theoretical analysis shows that CTAug can strictly improve existing GCL mechanisms. Empirical experiments verify that CTAug can achieve state-of-the-art performance for graph representation learning, especially for graphs with high degrees. The code is available at https://doi.org/10.5281/zenodo.10594093, or https://github.com/wuyucheng2002/CTAug.
翻訳日:2024-02-22 19:16:48 公開日:2024-02-21
# 多変量ベータ混合モデル:フレキシブルクラスタ形状を用いた確率的クラスタリング

Multivariate Beta Mixture Model: Probabilistic Clustering With Flexible Cluster Shapes ( http://arxiv.org/abs/2401.16708v2 )

ライセンス: Link先を確認
Yung-Peng Hsu, Hung-Hsuan Chen(参考訳) 本稿では,ソフトクラスタリングの新しい確率モデルである多変量ベータ混合モデル(MBMM)を紹介する。 MBMMは多変量ベータ分布の柔軟な確率密度関数のため、多様なクラスタ形状に適応する。 本稿では、mbmmの特性を紹介し、パラメータ学習手順を説明し、mbmmが合成および実データ集合に多様なクラスター形状に適合することを示す。 コードはhttps://github.com/hhchen1105/mbmm/で匿名でリリースされている。

This paper introduces the multivariate beta mixture model (MBMM), a new probabilistic model for soft clustering. MBMM adapts to diverse cluster shapes because of the flexible probability density function of the multivariate beta distribution. We introduce the properties of MBMM, describe the parameter learning procedure, and present the experimental results, showing that MBMM fits diverse cluster shapes on synthetic and real datasets. The code is released anonymously at https://github.com/hhchen1105/mbmm/.
翻訳日:2024-02-22 19:15:58 公開日:2024-02-21
# 集積キャビティ光学用集束膜メタミラー

Focusing membrane metamirrors for integrated cavity optomechanics ( http://arxiv.org/abs/2401.16695v2 )

ライセンス: Link先を確認
A. R. Agrawal, J. Manley, D. Allepuz-Requena, and D. J. Wilson(参考訳) 我々はSi$_3$N$_4$膜の非周期フォトニック結晶パターニングにより、懸濁した高反射率メタミラー(f\approx 10$ cm, $\mathcal{R} \approx 99\%$)を実現した。 この設計により、単一の平面誘電体エンドミラーを用いて、安定な(L$ = 30$\mu$m), High-finesse(\mathcal{F}>600$)膜キャビティ光学系を構築することができる。 本稿では,自由空間とキャビティを用いた透過測定による反射率のメタミラー設計,製造プロセス,キャラクタリゼーションについて述べる。 鏡の曲率の有効半径はキャビティの横モードスペクトルから推定される。 フォノニック・エンジニアリングとメタリゼーションを組み合わせることで、集束膜ミラーは高精度な力センシングからハイブリッド量子トランスダクションまで幅広い応用により、高コオペラビリティ、垂直統合型キャビティ光機械システムへの道を提供する。

We have realized a suspended, high-reflectivity focusing metamirror ($f\approx 10$ cm, $\mathcal{R} \approx 99\%$) by non-periodic photonic crystal patterning of a Si$_3$N$_4$ membrane. The design enables construction of a stable, short ($L$ = 30 $\mu$m), high-finesse ($\mathcal{F}>600$) membrane cavity optomechanical system using a single plano dielectric end-mirror. We present the metamirror design, fabrication process, and characterization of its reflectivity using both free space and cavity-based transmission measurements. The mirror's effective radius of curvature is inferred from the transverse mode spectrum of the cavity. In combination with phononic engineering and metallization, focusing membrane mirrors offer a route towards high-cooperativity, vertically-integrated cavity optomechanical systems with applications ranging from precision force sensing to hybrid quantum transduction.
翻訳日:2024-02-22 19:15:50 公開日:2024-02-21
# 対称性誘起二次元高次例外点

Symmetry-induced higher-order exceptional points in two dimensions ( http://arxiv.org/abs/2401.10913v2 )

ライセンス: Link先を確認
Anton Montag, Flore K. Kunst(参考訳) 位数$n$ (EP$n$s) の例外点は、固有値と固有ベクトルが結合する点として非エルミート系に現れる。 2(n-1)$の実制約が課されると、EP2が2次元(2D)に一般的に現れる。 局所的な対称性は、この制約の数を減らすことが示されている。 本研究では,2次元パラメータ空間における対称性誘起高次EPの出現の完全な特徴付けを行う。 EP2s以外のEP3s、EP4s、EP5sは2Dで安定化できる。 さらに、これらの高次EPは常に対称性によって決定される分散とペアに現れなければならない。 これらのEPの周りの複雑なスペクトル構造を研究すると、EP3は対称性によってEP2アークと2次元および3次元のオープンフェルミ構造が伴うことが分かる。 同様に、複数の対称性によって生じるEP4sと関連するEP5sは、エキゾチックなEPアークとオープンなフェルミ構造を伴っている。 いずれの場合も、明示的な例を挙げる。 また、これらのEPのトポロジカル電荷についてコメントし、対称性に保護された高次EPとEP2の類似性と相違について論じる。

Exceptional points of order $n$ (EP$n$s) appear in non-Hermitian systems as points where the eigenvalues and eigenvectors coalesce. They emerge if $2(n-1)$ real constraints are imposed, such that EP2s generically appear in two dimensions (2D). Symmetries that are local have been shown to reduce this number of constraints. In this work, we provide a complete characterization of the appearance of symmetry-induced higher-order EPs in 2D parameter space. We find that besides EP2s only EP3s, EP4s, and EP5s can be stabilized in 2D. Moreover, these higher-order EPs must always appear in pairs with their dispersion determined by the symmetries. Upon studying the complex spectral structure around these EPs, we find that depending on the symmetry, EP3s are accompanied by EP2 arcs, and 2- and 3-level open Fermi structures. Similarly, EP4s and closely related EP5s, which arise due to multiple symmetries, are accompanied by exotic EP arcs and open Fermi structures. For each case, we provide an explicit example. We also comment on the topological charge of these EPs, and discuss similarities and differences between symmetry-protected higher-order EPs and EP2s.
翻訳日:2024-02-22 19:14:46 公開日:2024-02-21
# 固有データセット特性が一般化に及ぼす影響 : 自然画像と医学画像の学習差の解明

The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images ( http://arxiv.org/abs/2401.08865v3 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski(参考訳) 本稿では,自然画像領域から医用画像など他の専門領域へコンピュータビジョン技術を適用する際に見過ごされる異なる画像領域からニューラルネットワークがどのように学習するかの相違について検討する。 最近の研究により、トレーニングされたネットワークの一般化誤差は、トレーニングセットの内在次元(d_{data}$)によって増加することが判明した。 しかし、この関係の急激さは医学(放射線学)と自然画像領域の間で大きく異なり、理論的な説明はない。 我々は,この知識のギャップを,$d_{data}$に関して一般化スケーリング法を確立し,実証的に検証することで解決し,提案する指標である医療画像データセットの"label sharpness" (k_\mathcal{f}$) が,少なくとも部分的には2つの領域間のスケーリングの不一致に起因する可能性があることを示唆する。 次に、トレーニングセットのラベルのシャープネスを測定する利点として、トレーニングモデルの逆方向の堅牢性と負の相関が示され、特に、敵方向の攻撃に対する脆弱性が著しく高い医療画像のモデルが導かれる。 最後に、私たちは$d_{data}$を関連する学習表現の内在次元(d_{repr}$)の計量に拡張し、$d_{repr}$に関して一般化スケーリング則を導出し、$d_{data}$が$d_{repr}$の上限となることを示す。 我々の理論的結果は、6つのモデルと11の自然・医療画像データセットによる、様々なトレーニングセットサイズでの徹底的な実験によって支えられている。 本研究は,ニューラルネットワークの一般化,表現学習,堅牢性に対する内在的データセット特性の影響について考察した。 コードリンク: https://github.com/mazurowski-lab/intrinsic-properties

This paper investigates discrepancies in how neural networks learn from different imaging domains, which are commonly overlooked when adopting computer vision techniques from the domain of natural images to other specialized domains such as medical images. Recent works have found that the generalization error of a trained network typically increases with the intrinsic dimension ($d_{data}$) of its training set. Yet, the steepness of this relationship varies significantly between medical (radiological) and natural imaging domains, with no existing theoretical explanation. We address this gap in knowledge by establishing and empirically validating a generalization scaling law with respect to $d_{data}$, and propose that the substantial scaling discrepancy between the two considered domains may be at least partially attributed to the higher intrinsic ``label sharpness'' ($K_\mathcal{F}$) of medical imaging datasets, a metric which we propose. Next, we demonstrate an additional benefit of measuring the label sharpness of a training set: it is negatively correlated with the trained model's adversarial robustness, which notably leads to models for medical images having a substantially higher vulnerability to adversarial attack. Finally, we extend our $d_{data}$ formalism to the related metric of learned representation intrinsic dimension ($d_{repr}$), derive a generalization scaling law with respect to $d_{repr}$, and show that $d_{data}$ serves as an upper bound for $d_{repr}$. Our theoretical results are supported by thorough experiments with six models and eleven natural and medical imaging datasets over a range of training set sizes. Our findings offer insights into the influence of intrinsic dataset properties on generalization, representation learning, and robustness in deep neural networks. Code link: https://github.com/mazurowski-lab/intrinsic-properties
翻訳日:2024-02-22 19:14:28 公開日:2024-02-21
# 感情連鎖による大規模言語モデルの感情生成能力の向上

Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought ( http://arxiv.org/abs/2401.06836v2 )

ライセンス: Link先を確認
Zaijing Li, Gongwei Chen, Rui Shao, Dongmei Jiang, and Liqiang Nie(参考訳) 大規模言語モデル(llm)は、様々な感情認識タスクにおいて顕著なパフォーマンスを示しており、それによって研究コミュニティの感情知性の可能性について探究する好奇心が高まっている。 しかし、人間の嗜好調整や感情生成評価など、感情生成タスクの分野でのいくつかの問題は未解決のままである。 本稿では,人間の感情知能ガイドラインと整合して,様々な感情生成タスクにおけるLLMの性能を高めるプラグイン・アンド・プレイ・プロンプト手法であるECoTを提案する。 ECoTの信頼性を評価するために,感情生成スコア(EGS)と呼ばれるモデルに基づく自動評価手法を提案する。 EGSは、Golemanの感情情報理論を人間の専門家のコンセンサスとして取り入れ、感情生成タスクの評価の新しい視点を提供する。 ECoTとESGの有効性を実験的に明らかにした。 さらに,情緒的知能の分野でのLLMの約束について議論し,情緒的生成タスクにおけるECoTとLLMの重要な洞察を示す。

Large Language Models (LLMs) have shown remarkable performance in various emotion recognition tasks, thereby piquing the research community's curiosity for exploring their potential in emotional intelligence. However, several issues in the field of emotional generation tasks remain unresolved, including human preference alignment and emotional generation assessment. In this paper, we propose the Emotional Chain-of-Thought (ECoT), a plug-and-play prompting method that enhances the performance of LLMs on various emotional generation tasks by aligning with human emotional intelligence guidelines. To assess the reliability of ECoT, we propose an automated model-based evaluation method called Emotional Generation Score (EGS). EGS incorporates Goleman's Emotional Intelligence Theory as a consensus of human experts, providing a new perspective on the evaluation of emotional generation tasks. Extensive experimental results demonstrate the effectiveness of ECoT and EGS. Further, we discuss the promise of LLMs in the field of emotional intelligence and present key insights into the LLMs with the ECoT in emotional generation tasks.
翻訳日:2024-02-22 19:13:35 公開日:2024-02-21
# OOP: 大規模言語モデルのオブジェクト指向プログラミング評価ベンチマーク

OOP: Object-Oriented Programming Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2401.06628v2 )

ライセンス: Link先を確認
Shuai Wang, Liang Ding, Li Shen, Yong Luo, Bo Du, Dacheng Tao(参考訳) 自動プログラミングの適応は、堅牢で包括的なコード生成ベンチマークを必要とするが、現在の評価フレームワークは、関数型プログラミング(FP)、例えばHumanEvalやMBPPを優先してオブジェクト指向プログラミング(OOP)をほとんど無視している。 そこで本研究では,OOPの基本的な概念と,クラスやカプセル化メソッドといった機能を含む431のPythonプログラムを特徴とする,OOPにフォーカスした先駆的なベンチマークを紹介した。 本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。 汎用モデルとコード特化モデルを含む23大言語モデル(LLM)の評価では,3つの重要な洞察が得られた。 1) pass@oはOOPコード生成に関するより関連性があり包括的な評価を提供する。 2) FP が優れているにもかかわらず、OOP の WizardCoder のようなコード特化 LLM は ChatGPT のようなモデルに比べて遅延している。 3) OOPベンチマークにおける先進的なLLMの低パフォーマンスは、この分野において重要な改善の必要性を強調しています。 ベンチマークとスクリプトは、https://github.com/alphadl/oop-eval.com/で公開しています。

Advancing automated programming necessitates robust and comprehensive code generation benchmarks, yet current evaluation frameworks largely neglect object-oriented programming (OOP) in favor of functional programming (FP), e.g., HumanEval and MBPP. To address this, our study introduces a pioneering OOP-focused benchmark, featuring 431 Python programs that encompass essential OOP concepts and features like classes and encapsulation methods. We propose a novel evaluation metric, pass@o, tailored for OOP, enhancing traditional pass@k measures. Our evaluation of 23 leading large language models (LLMs), including both general and code-specialized models, reveals three key insights: 1) pass@o offers a more relevant and comprehensive assessment for OOP code generation; 2) Despite excelling in FP, code-specialized LLMs like WizardCoder lag in OOP compared to models like ChatGPT; 3) The poor performance of all advanced LLMs on our OOP benchmark highlights a critical need for improvements in this field. Our benchmark and scripts are publicly released at: https://github.com/alphadl/OOP-eval.
翻訳日:2024-02-22 19:13:16 公開日:2024-02-21
# 意図分析がllmsを脱獄防止に役立てる

Intention Analysis Makes LLMs A Good Jailbreak Defender ( http://arxiv.org/abs/2401.06561v2 )

ライセンス: Link先を確認
Yuqi Zhang and Liang Ding and Lefei Zhang and Dacheng Tao(参考訳) 大規模な言語モデル(LLM)と人間の価値、特にステルス性や複雑なジェイルブレイク攻撃に直面して調整することは、恐ろしい挑戦だ。 本研究では,意図分析(\mathbb{IA}$)という,シンプルで効果的な防衛戦略を提案する。 この背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。 1)本質的意図分析、及び 2)政策対応対応。 特に$\mathbb{IA}$は推論のみの手法であり、その有用性を損なうことなくLLMの安全性を高めることができる。 Vicuna、ChatGLM、MPT、DeepSeek、およびGPT-3.5にわたるSAP200およびDANベンチマークの広範な実験により、$\mathbb{IA}$は、応答の有害性(平均-46.5 %の攻撃成功率)を一貫して大幅に低減し、一般的な有用性を維持することができた。 Vicuna-7bは、われわれの$\mathbb{IA}$の助けを借りて、GPT-3.5の攻撃成功率よりも優れています。 さらなる分析は、我々の方法がどのように機能するかについての洞察を与える。 再現性を促進するため、コードとスクリプトをhttps://github.com/alphadl/SafeLLM_with_IntentionAnalysis.comでリリースします。

Aligning large language models (LLMs) with human values, particularly in the face of stealthy and complex jailbreak attacks, presents a formidable challenge. In this study, we present a simple yet highly effective defense strategy, i.e., Intention Analysis ($\mathbb{IA}$). The principle behind this is to trigger LLMs' inherent self-correct and improve ability through a two-stage process: 1) essential intention analysis, and 2) policy-aligned response. Notably, $\mathbb{IA}$ is an inference-only method, thus could enhance the safety of LLMs without compromising their helpfulness. Extensive experiments on SAP200 and DAN benchmarks across Vicuna, ChatGLM, MPT, DeepSeek, and GPT-3.5 show that $\mathbb{IA}$ could consistently and significantly reduce the harmfulness in responses (averagely -46.5\% attack success rate) and maintain the general helpfulness. Encouragingly, with the help of our $\mathbb{IA}$, Vicuna-7b even outperforms GPT-3.5 in terms of attack success rate. Further analyses present some insights into how our method works. To facilitate reproducibility, we release our code and scripts at: https://github.com/alphadl/SafeLLM_with_IntentionAnalysis.
翻訳日:2024-02-22 19:12:57 公開日:2024-02-21
# 分布的選好報酬モデルによる群衆フィードバックの調整

Aligning Crowd Feedback via Distributional Preference Reward Modeling ( http://arxiv.org/abs/2402.09764v2 )

ライセンス: Link先を確認
Dexun Li, Cong Zhang, Kuicai Dong, Derrick Goh Xin Deik, Ruiming Tang, Yong Liu(参考訳) 深層強化学習は、大規模言語モデル(LLM)と人間の好みの整合に広く用いられている。 しかし、従来の報酬モデリングは主に個人の選択したコホートによって提供される人間のアノテーションに依存している。 このような依存は意図せず、これらの注釈者の傾斜を反映して歪んだモデルをもたらす可能性があるため、より広い人口の期待を適切に表現できない。 本稿では,大規模言語モデルと多様な人間の選好のセットを連携させる,単純かつ効果的なフレームワークである分散選好報酬モデル(dprm)を提案する。 この目的のために,選好傾向の変動に動的に適応可能なベータ分布によって選好を特徴付ける。 その上で, DPRMを校正し, 選好分布に適合させる最適輸送に基づく損失を設計する。 最後に, LLM ポリシーを微調整し, 住民に好まれる応答を生成するために, 期待される報酬を利用する。 実験の結果,DPRM は LLM と人口嗜好の整合性を著しく向上させ,より正確で偏りがなく,文脈的に適切な応答をもたらすことが示された。

Deep Reinforcement Learning is widely used for aligning Large Language Models (LLM) with human preference. However, the conventional reward modelling has predominantly depended on human annotations provided by a select cohort of individuals. Such dependence may unintentionally result in models that are skewed to reflect the inclinations of these annotators, thereby failing to represent the expectations of the wider population adequately. In this paper, we introduce the Distributional Preference Reward Model (DPRM), a simple yet effective framework to align large language models with a diverse set of human preferences. To this end, we characterize the preferences by a beta distribution, which can dynamically adapt to fluctuations in preference trends. On top of that, we design an optimal-transportation-based loss to calibrate DPRM to align with the preference distribution. Finally, the expected reward is utilized to fine-tune an LLM policy to generate responses favoured by the population. Our experiments show that DPRM significantly enhances the alignment of LLMs with population preference, yielding more accurate, unbiased, and contextually appropriate responses.
翻訳日:2024-02-22 19:04:05 公開日:2024-02-21
# TREET: TransformerによるTRansferエントロピー推定

TREET: TRansfer Entropy Estimation via Transformer ( http://arxiv.org/abs/2402.06919v2 )

ライセンス: Link先を確認
Omer Luxembourg, Dor Tsur, Haim Permuter(参考訳) 伝達エントロピー(英: Transfer entropy, TE)は、プロセス間の情報の流れを明らかにする情報理論における計測であり、幅広い現実世界の応用に有用な洞察を提供する。 本研究は,変圧器を用いた定常過程のTE推定手法であるTransfer Entropy Estimation via Transformers (TREET)を提案する。 提案手法では, TE にDonsker-Vardhan (DV) 表現を用い, 神経推定のタスクに注意機構を利用する。 本稿では,TREETの理論的および実証的研究を,既存の手法と比較して提案する。 その適用性を高めるために,関数表現補題に動機づけられた推定te最適化スキームを設計する。 その後、情報理論における正準最適化問題であるメモリを用いた通信チャネルの容量を最適化するために、共同最適化方式を利用して、推定器のメモリ能力を示す。 最後に,実世界の特徴分析にTREETを適用した。 最先端のディープラーニング手法を適用した我々の研究は、まだ解決されていないコミュニケーション問題の新たな扉を開く。

Transfer entropy (TE) is a measurement in information theory that reveals the directional flow of information between processes, providing valuable insights for a wide range of real-world applications. This work proposes Transfer Entropy Estimation via Transformers (TREET), a novel transformer-based approach for estimating the TE for stationary processes. The proposed approach employs Donsker-Vardhan (DV) representation to TE and leverages the attention mechanism for the task of neural estimation. We propose a detailed theoretical and empirical study of the TREET, comparing it to existing methods. To increase its applicability, we design an estimated TE optimization scheme that is motivated by the functional representation lemma. Afterwards, we take advantage of the joint optimization scheme to optimize the capacity of communication channels with memory, which is a canonical optimization problem in information theory, and show the memory capabilities of our estimator. Finally, we apply TREET to real-world feature analysis. Our work, applied with state-of-the-art deep learning methods, opens a new door for communication problems which are yet to be solved.
翻訳日:2024-02-22 19:03:46 公開日:2024-02-21
# DeAL: 大規模言語モデルのデコード時アライメント

DeAL: Decoding-time Alignment for Large Language Models ( http://arxiv.org/abs/2402.06147v2 )

ライセンス: Link先を確認
James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchhoff, Dan Roth(参考訳) 大規模言語モデル(LLM)は現在、人間の好みに沿ったコンテンツを生成することが期待されている。 現在の研究は、Reinforcement Learning with Human Feedback (RLHF)のようなテクニックを通じて、モデルトレーニング時のアライメントに焦点を当てている。 しかし、そのような手法がモデルにアライメント目的を教える効果的な選択であるかどうかは不明である。 まず、モデル開発者の普遍的原則と静的原則に対する見解に、複数のカスタム報酬と依存を組み込むことができないことが、重要な制限です。 第二に、モデル訓練における残留ギャップとそのようなアプローチの信頼性も疑わしい(例えば、安全訓練の後でさえ、脱獄の危険性)。 そこで本稿では,報酬関数をカスタマイズし,LLM(Decode-time Alignment of LLM)を実現するためのフレームワークであるDeALを提案する。 その核となるのは、デコーディングをヒューリスティックなガイド付き検索プロセスとして捉え、幅広いアライメント目標の使用を促進することです。 キーワードや長さの制約(LLM前において広く研究されている)や無害性や援助性(LLM後)といった抽象的な目的(LLM後)を用いた実験は、細粒度のトレードオフでDeALが可能であり、アライメント目的への適合性を改善し、LCMの残差に対処できることを示している。 最後に、DeALはRLHFと効果的に組み合わせて技法を推進できるが、その一般化によってデコードが遅くなり、将来の作業に向け最適化される。

Large Language Models (LLMs) are nowadays expected to generate content aligned with human preferences. Current work focuses on alignment at model training time, through techniques such as Reinforcement Learning with Human Feedback (RLHF). However, it is unclear if such methods are an effective choice to teach alignment objectives to the model. First, the inability to incorporate multiple, custom rewards and reliance on a model developer's view of universal and static principles are key limitations. Second, the residual gaps in model training and the reliability of such approaches are also questionable (e.g. susceptibility to jail-breaking even after safety training). To address these, we propose DeAL, a framework that allows the user to customize reward functions and enables Decoding-time Alignment of LLMs (DeAL). At its core, we view decoding as a heuristic-guided search process and facilitate the use of a wide variety of alignment objectives. Our experiments with programmatic constraints such as keyword and length constraints (studied widely in the pre-LLM era) and abstract objectives such as harmlessness and helpfulness (proposed in the post-LLM era) show that we can DeAL with fine-grained trade-offs, improve adherence to alignment objectives, and address residual gaps in LLMs. Lastly, while DeAL can be effectively paired with RLHF and prompting techniques, its generality makes decoding slower, an optimization we leave for future work.
翻訳日:2024-02-22 19:03:26 公開日:2024-02-21
# InkSight: 読み書き学習によるオフラインからオフラインへの手書き変換

InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write ( http://arxiv.org/abs/2402.05804v2 )

ライセンス: Link先を確認
Blagoj Mitrevski, Arina Rak, Julian Schnitzler, Chengkun Li, Andrii Maksai, Jesse Berent, Claudiu Musat(参考訳) デジタルノートテイクが人気を博し、デジタルインクと呼ばれるベクタライズされた形式でメモを保存する、耐久性があり、編集可能で、簡単にインデックスできる方法を提供している。 しかし、このようなノートテイクと従来のペン・アンド・ペーパーのノートテイクの間には大きなギャップが残っている。 私たちの仕事であるInkSightは、物理的なメモ取り者に、自分の仕事(オフライン手書き)をデジタルインク(オンライン手書き)に変換する力を与え、ギャップを埋めることを目指しています。 このトピックに関する以前の研究は、画像の幾何学的性質に焦点を当てており、トレーニング領域を越えての一般化は限られている。 提案手法では,事前の読み書きを組み合わせ,大量のペア化サンプルがない場合にモデルを訓練することが可能であり,入手が困難である。 私たちの知る限り、これは様々な視覚特性と背景を持つ任意の写真に手書きのテキストを効果的に導出する最初の作品である。 さらに、トレーニングドメインを超えて単純なスケッチに一般化する。 人間による評価の結果,挑戦的なhiertextデータセットを用いたモデルが生成したサンプルの87%は,入力画像の有効な追跡と見なされ,67%は人間が追跡したペンの軌跡のように見えることがわかった。 3つの公開データセットそれぞれに対する100ワードレベルのモデルアウトプットのインタラクティブな可視化は、Hugging Faceスペースで利用可能です。 モデルリリースが進行中です。

Digital note-taking is gaining popularity, offering a durable, editable, and easily indexable way of storing notes in the vectorized form, known as digital ink. However, a substantial gap remains between this way of note-taking and traditional pen-and-paper note-taking, a practice still favored by a vast majority. Our work, InkSight, aims to bridge the gap by empowering physical note-takers to effortlessly convert their work (offline handwriting) to digital ink (online handwriting), a process we refer to as Derendering. Prior research on the topic has focused on the geometric properties of images, resulting in limited generalization beyond their training domains. Our approach combines reading and writing priors, allowing training a model in the absence of large amounts of paired samples, which are difficult to obtain. To our knowledge, this is the first work that effectively derenders handwritten text in arbitrary photos with diverse visual characteristics and backgrounds. Furthermore, it generalizes beyond its training domain into simple sketches. Our human evaluation reveals that 87% of the samples produced by our model on the challenging HierText dataset are considered as a valid tracing of the input image and 67% look like a pen trajectory traced by a human. Interactive visualizations of 100 word-level model outputs for each of the three public datasets are available in our Hugging Face space: https://huggingface.co/spaces/Derendering/Model-Output-Playground. Model release is in progress.
翻訳日:2024-02-22 19:02:58 公開日:2024-02-21
# 発達しない岩石の符号化-LDM対応SEタスクの人間中心実験

Rocks Coding, Not Development--A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks ( http://arxiv.org/abs/2402.05650v3 )

ライセンス: Link先を確認
Wei Wang, Huilong Ning, Gaowei Zhang, Libo Liu and Yi Wang(参考訳) 近年、大規模言語モデル(LLM)ベースの生成AIは、特にChatGPTのリリース以降、複数のドメインにおける優れた高品質なパフォーマンスで勢いを増している。 多くの人は、ソフトウェア開発において汎用的な問題解決を行い、人間のソフトウェア開発者を置き換える可能性を秘めている。 それでも、これらのLCM技術がソフトウェア開発タスクを遂行する能力について、深刻な調査が行われていない。 109人の被験者による2 x 2のオブジェクト間実験において、コーディングタスクやソフトウェア開発タスクにおいてChatGPTがどの程度役に立つか、人々がChatGPTでどのように働くかを検討した。 単純なコーディング問題ではChatGPTがうまく機能したが、典型的なソフトウェア開発タスクをサポートする性能はそれほど良くなかった。 また,参加者とチャットgptの相互作用を観察し,その相互作用と結果の関係を見いだした。 そこで本研究では,ChatGPTを用いて現実の開発者とソフトウェアエンジニアリングのタスクを遂行し,開発者が望まれる結果を達成するために,大規模言語モデルと効果的に連携する新しいインタラクションメカニズムの必要性を動機づける。

Recently, large language models (LLM) based generative AI has been gaining momentum for their impressive high-quality performances in multiple domains, particularly after the release of the ChatGPT. Many believe that they have the potential to perform general-purpose problem-solving in software development and replace human software developers. Nevertheless, there are in a lack of serious investigation into the capability of these LLM techniques in fulfilling software development tasks. In a controlled 2 x 2 between-subject experiment with 109 participants, we examined whether and to what degree working with ChatGPT was helpful in the coding task and typical software development task and how people work with ChatGPT. We found that while ChatGPT performed well in solving simple coding problems, its performance in supporting typical software development tasks was not that good. We also observed the interactions between participants and ChatGPT and found the relations between the interactions and the outcomes. Our study thus provides first-hand insights into using ChatGPT to fulfill software engineering tasks with real-world developers and motivates the need for novel interaction mechanisms that help developers effectively work with large language models to achieve desired outcomes.
翻訳日:2024-02-22 19:02:29 公開日:2024-02-21
# 触覚に基づくグラニュラーメディアからの物体検索

Tactile-based Object Retrieval From Granular Media ( http://arxiv.org/abs/2402.04536v2 )

ライセンス: Link先を確認
Jingxi Xu, Yinsen Jia, Dongxiao Yang, Patrick Meng, Xinyue Zhu, Zihan Guo, Shuran Song, Matei Ciocarlie(参考訳) 粒状媒体に埋設された物体を探索するロボット操作手法geotactを提案する。 これは、粒度メディアとやりとりする必要があるため、また、埋め込みオブジェクトが視覚から完全に隠れることができるため、触覚フィードバックのみに基づいて行うため、難しい課題である。 触覚フィードバックは、周囲のメディアとのユビキタスな接触と、触覚の読み取りによって引き起こされる固有のノイズレベルによって、この文脈ではそれ自体が困難である。 これらの課題に対処するために、センサノイズをシミュレートしたエンドツーエンドの学習手法を用いる。 提案手法は, 不確かさを低減し, 刺激的かつうるさい触感に拘わらず, 物体を安定な把持に誘導するために, マニピュレータが使用する学習型押出し行動の自然発生を導く。 また、シミュレーションでこれらの行動を学習し、実ハードウェアへのゼロショット転送を可能にするトレーニングカリキュラムも導入する。 我々の知る限り、GEOTACTは、多数の異なるオブジェクトを粒度の環境から確実に回収し、実際のハードウェアと統合された触覚センサーで処理する最初の方法です。 ビデオや追加情報はhttps://jxu.ai/geotactで見ることができる。

We introduce GEOTACT, a robotic manipulation method capable of retrieving objects buried in granular media. This is a challenging task due to the need to interact with granular media, and doing so based exclusively on tactile feedback, since a buried object can be completely hidden from vision. Tactile feedback is in itself challenging in this context, due to ubiquitous contact with the surrounding media, and the inherent noise level induced by the tactile readings. To address these challenges, we use a learning method trained end-to-end with simulated sensor noise. We show that our problem formulation leads to the natural emergence of learned pushing behaviors that the manipulator uses to reduce uncertainty and funnel the object to a stable grasp despite spurious and noisy tactile readings. We also introduce a training curriculum that enables learning these behaviors in simulation, followed by zero-shot transfer to real hardware. To the best of our knowledge, GEOTACT is the first method to reliably retrieve a number of different objects from a granular environment, doing so on real hardware and with integrated tactile sensing. Videos and additional information can be found at https://jxu.ai/geotact.
翻訳日:2024-02-22 19:02:08 公開日:2024-02-21
# HEAM : 処理インメモリを用いたハッシュ埋め込み高速化

HEAM : Hashed Embedding Acceleration using Processing-In-Memory ( http://arxiv.org/abs/2402.04032v2 )

ライセンス: Link先を確認
Youngsuk Kim, Hyuk-Jae Lee, Chae Eun Rhee(参考訳) 今日のデータセンターでは、パーソナライズドレコメンデーションシステムが、特に組み込み操作を行う場合に、大きなメモリ容量と高い帯域幅の必要性といった課題に直面している。 従来のアプローチでは、DIMMベースのニアメモリ処理技術や、メモリバウンド問題に対処し、メモリ帯域幅を拡大する3DスタックDRAMが導入されていた。 しかし、これらのソリューションはパーソナライズされたレコメンデーションシステムのサイズ拡大を扱う場合に不足する。 レコメンデーションモデルは数十テラバイトを超えるサイズに成長し、従来の単一ノード推論サーバ上で効率的に動作することが困難になっている。 組込みテーブルの容量を削減するために様々なアルゴリズムが提案されているが、メモリアクセスの増加やメモリ資源の非効率利用につながることが多い。 本稿では,3次元スタックDRAMとDIMMを統合したヘテロジニアスメモリアーキテクチャであるHEAMについて紹介する。 アーキテクチャは、従来のDIMM、ベースダイレベルのProcess-In-Memory(PIM)を備えた3DスタックDRAM、Look-Up-Tableを備えた銀行グループレベルのPIMで構成されている。 この設定は、時間的局所性や埋め込みテーブル容量など、構成的埋め込みのユニークな側面を満たすように特別に設計されている。 この設計は銀行アクセスを効果的に削減し、アクセス効率を向上し、全体のスループットを向上し、6.3倍の高速化と58.9%の省エネを実現している。

In today's data centers, personalized recommendation systems face challenges such as the need for large memory capacity and high bandwidth, especially when performing embedding operations. Previous approaches have relied on DIMM-based near-memory processing techniques or introduced 3D-stacked DRAM to address memory-bound issues and expand memory bandwidth. However, these solutions fall short when dealing with the expanding size of personalized recommendation systems. Recommendation models have grown to sizes exceeding tens of terabytes, making them challenging to run efficiently on traditional single-node inference servers. Although various algorithmic methods have been proposed to reduce embedding table capacity, they often result in increased memory access or inefficient utilization of memory resources. This paper introduces HEAM, a heterogeneous memory architecture that integrates 3D-stacked DRAM with DIMM to accelerate recommendation systems in which compositional embedding is utilized-a technique aimed at reducing the size of embedding tables. The architecture is organized into a three-tier memory hierarchy consisting of conventional DIMM, 3D-stacked DRAM with a base die-level Processing-In-Memory (PIM), and a bank group-level PIM incorporating a Look-Up-Table. This setup is specifically designed to accommodate the unique aspects of compositional embedding, such as temporal locality and embedding table capacity. This design effectively reduces bank access, improves access efficiency, and enhances overall throughput, resulting in a 6.3 times speedup and 58.9% energy savings compared to the baseline.
翻訳日:2024-02-22 19:01:24 公開日:2024-02-21
# SEABO:オフライン模倣学習のための簡易検索手法

SEABO: A Simple Search-Based Method for Offline Imitation Learning ( http://arxiv.org/abs/2402.03807v2 )

ライセンス: Link先を確認
Jiafei Lyu, Xiaoteng Ma, Le Wan, Runze Liu, Xiu Li, Zongqing Lu(参考訳) オフライン強化学習(rl)は、静的なオフラインデータセットから学習する能力と、環境とのインタラクションの必要性の排除によって、多くの注目を集めている。 それでも、オフラインRLの成功は、報酬ラベルを付したオフライン移行に大きく依存している。 実際には、しばしば報酬関数を手作りする必要があるが、それは時に困難、労働集約的、あるいは非効率である。 この課題に取り組むために,我々はオフライン模倣学習(il)設定に着目し,専門家データとラベルなしデータに基づいて報奨機能を得ることを目標とした。 そこで本研究では,検索ベースのオフラインil手法であるtagged seaboを提案する。 SEABOは、専門家によるデモンストレーションにおいて、隣人に近い移行に対してより大きな報酬を割り当て、そうでなければ、すべて教師なしの学習方法で、より小さな報酬を割り当てる。 様々なD4RLデータセットに対する実験結果から、SEABOは1つの専門的軌道のみを与えられた、オフラインRLアルゴリズムに対する競合的な性能を達成することができ、多くのタスクにおける事前報酬学習やオフラインILメソッドよりも優れることが示された。 また,専門家による実証実験が観察のみを含む場合,SEABOは有効であることを示す。 私たちのコードはhttps://github.com/dmksjfl/SEABO.comで公開されています。

Offline reinforcement learning (RL) has attracted much attention due to its ability in learning from static offline datasets and eliminating the need of interacting with the environment. Nevertheless, the success of offline RL relies heavily on the offline transitions annotated with reward labels. In practice, we often need to hand-craft the reward function, which is sometimes difficult, labor-intensive, or inefficient. To tackle this challenge, we set our focus on the offline imitation learning (IL) setting, and aim at getting a reward function based on the expert data and unlabeled data. To that end, we propose a simple yet effective search-based offline IL method, tagged SEABO. SEABO allocates a larger reward to the transition that is close to its closest neighbor in the expert demonstration, and a smaller reward otherwise, all in an unsupervised learning manner. Experimental results on a variety of D4RL datasets indicate that SEABO can achieve competitive performance to offline RL algorithms with ground-truth rewards, given only a single expert trajectory, and can outperform prior reward learning and offline IL methods across many tasks. Moreover, we demonstrate that SEABO also works well if the expert demonstrations contain only observations. Our code is publicly available at https://github.com/dmksjfl/SEABO.
翻訳日:2024-02-22 19:00:53 公開日:2024-02-21
# MolTC:言語モデルにおける分子関係モデリングを目指して

MolTC: Towards Molecular Relational Modeling In Language Models ( http://arxiv.org/abs/2402.03781v5 )

ライセンス: Link先を確認
Junfeng Fang, Shuai Zhang, Chang Wu, Zhengyi Yang, Zhiyuan Liu, Sihang Li, Kun Wang, Wenjie Du and Xiang Wang(参考訳) 分子間の相互作用を理解することを目的とした分子関係学習(MRL)は、生化学研究の進展において重要な役割を担っている。 近年,膨大な知識リポジトリと高度な論理推論能力で知られる大規模言語モデル (LLM) の採用が,MRLの効率的かつ効果的な方法として注目されている。 その可能性にもかかわらず、これらの手法は主としてテキストデータに依存しており、分子グラフに固有の構造情報の豊富さを十分に活用していない。 さらに、統一フレームワークの欠如は、多種多様なデータセット間で学習されたインタラクションメカニズムの共有を妨げるため、情報の活用不足の問題を悪化させる。 これらの課題に対処するため、本研究では分子相互作用予測のための新しいllmベースのマルチモーダルフレームワークであるmoltc(chain-of-thought (cot) theory)を提案している。 統合MRLを実現するため、MollTCは、クロスデータセット情報共有のための動的パラメータ共有戦略を革新的に開発している。 さらに,MolTCを効果的に訓練するために,多階層CoTの概念を導入して訓練パラダイムを洗練させ,MRLを含む生化学LLMの開発のための包括的分子インタラクティブインストラクションデータセットを構築した。 我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。 コードはhttps://github.com/MangoKiller/MolTCで入手できる。

Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. For achieving a unified MRL, MolTC innovatively develops a dynamic parameter-sharing strategy for cross-dataset information sharing. Moreover, to train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.
翻訳日:2024-02-22 19:00:28 公開日:2024-02-21
# mod-slam:unbounded 3d scene reconstructionのための単眼高密度マッピング

MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction ( http://arxiv.org/abs/2402.03762v3 )

ライセンス: Link先を確認
Heng Zhou, Zhetao Guo, Shuhong Liu, Lechen Zhang, Qihao Wang, Yuxiang Ren, Mingrui Li(参考訳) ニューラルネットワークの暗黙的表現は、最近、同時局在化とマッピング(slam)を含む多くの分野で実証されている。 現在のニューラルSLAMは境界シーンの再構成において理想的な結果が得られるが、これはRGB-D画像の入力に依存する。 rgb画像のみに基づくニューラルベースslamでは,シーンのスケールを正確に再構築することはできず,追跡中に蓄積されたエラーによりスケールドリフトに支障をきたす。 このような制約を克服するために,世界的ポーズ最適化と3次元再構成を非有界シーンで実現可能な単眼的密集マッピング法 mod-slam を提案する。 単眼深度推定によるシーン再構築の最適化とループ閉鎖検出によるカメラポーズの更新により、大規模シーンの詳細な再現が可能となる。 これまでの作業と比べて、私たちのアプローチはより堅牢で、スケーラブルで、多用途です。 実験の結果,MoD-SLAMのマッピング性能は,特に大きな境界のないシーンにおいて,従来のSLAM法よりも優れていた。

Neural implicit representations have recently been demonstrated in many fields including Simultaneous Localization And Mapping (SLAM). Current neural SLAM can achieve ideal results in reconstructing bounded scenes, but this relies on the input of RGB-D images. Neural-based SLAM based only on RGB images is unable to reconstruct the scale of the scene accurately, and it also suffers from scale drift due to errors accumulated during tracking. To overcome these limitations, we present MoD-SLAM, a monocular dense mapping method that allows global pose optimization and 3D reconstruction in real-time in unbounded scenes. Optimizing scene reconstruction by monocular depth estimation and using loop closure detection to update camera pose enable detailed and precise reconstruction on large scenes. Compared to previous work, our approach is more robust, scalable and versatile. Our experiments demonstrate that MoD-SLAM has more excellent mapping performance than prior neural SLAM methods, especially in large borderless scenes.
翻訳日:2024-02-22 18:59:57 公開日:2024-02-21
# uehlingポテンシャルの微分方程式

Differential equation for the Uehling potential ( http://arxiv.org/abs/2402.03360v3 )

ライセンス: Link先を確認
Alexei M. Frolov(参考訳) uehlingポテンシャルの2階微分方程式は明示的に導出される。 この微分方程式の右辺は、2つのマクドナルド函数の線型結合で、$K_{0}(b r)$と$K_{1}(b r)$である。 この中心ポテンシャルは、数電子および多電子原子、イオン、ムロン原子、バイムロン原子/イオンおよび他の類似系における真空分極の最低次補正を記述するため、多くのqed問題に大きな関心を寄せている。

The second-order differential equation for the Uehling potential is derived explicitly. The right side of this differential equation is a linear combination of the two Macdonald's functions $K_{0}(b r)$ and $K_{1}(b r)$. This central potential is of great interest in many QED problems, since it describes the lowest-order correction for vacuum polarization in few- and many-electron atoms, ions, muonic and bi-muonic atoms/ions as well as in other similar systems.
翻訳日:2024-02-22 18:59:11 公開日:2024-02-21
# ブラックボックスレベルの攻撃に対する爆発的クラス確率

Exploiting Class Probabilities for Black-box Sentence-level Attacks ( http://arxiv.org/abs/2402.02695v2 )

ライセンス: Link先を確認
Raha Moraffah and Huan Liu(参考訳) 文レベルの攻撃は、正しく分類された文と同義であるが、テキスト分類器によって誤分類される逆文を作らせる。 ブラックボックス設定の下では、分類器はクエリされた入力へのフィードバックを通してのみアクセスでき、クラス確率の形では主に利用可能である。 クラス確率を利用すると、より強力な攻撃が発生するが、文レベルの攻撃に使用するという課題のため、既存の攻撃ではフィードバックもクラスラベルのみを使用する。 課題を克服するために,ブラックボックスの文レベル攻撃にクラス確率を用いたアルゴリズムを開発し,攻撃の成功にクラス確率を用いることの有効性を検証し,ブラックボックスの文レベル攻撃によるクラス確率の使用が適切か否かを問う。 我々は,様々な分類器とベンチマークデータセットのベースラインと比較し,攻撃を広範囲に評価する。

Sentence-level attacks craft adversarial sentences that are synonymous with correctly-classified sentences but are misclassified by the text classifiers. Under the black-box setting, classifiers are only accessible through their feedback to queried inputs, which is predominately available in the form of class probabilities. Even though utilizing class probabilities results in stronger attacks, due to the challenges of using them for sentence-level attacks, existing attacks use either no feedback or only the class labels. Overcoming the challenges, we develop a novel algorithm that uses class probabilities for black-box sentence-level attacks, investigate the effectiveness of using class probabilities on the attack's success, and examine the question if it is worthy or practical to use class probabilities by black-box sentence-level attacks. We conduct extensive evaluations of our attack comparing with the baselines across various classifiers and benchmark datasets.
翻訳日:2024-02-22 18:59:00 公開日:2024-02-21
# Johnson-Lindenstraus の単純統一解析とその応用

Simple, unified analysis of Johnson-Lindenstrauss with applications ( http://arxiv.org/abs/2402.10232v2 )

ライセンス: Link先を確認
Yingru Li(参考訳) 本稿では,ジョンソン・リンデンシュトラウス(JL)補題の単純かつ統一的な解析について述べる。 我々のアプローチは理解を単純化するだけでなく、球面、バイナリコイン、スパースJL、ガウスおよびガウス以下のモデルを含む様々な構成をJLフレームワークで統一する。 この単純化と統一は、ストリーミングアルゴリズムから強化学習まで、さまざまなアプリケーションで不可欠なデータの内在的な幾何学を維持する上で、大きな一歩を踏み出します。 特に球面構成の有効性に関する最初の厳密な証明を提供し、この単純化された枠組みの中でサブガウス構成の一般的なクラスを提供する。 私たちの貢献の核心は、ハンソン=ライトの不等式を高次元に革新的に拡張し、明示的な定数を満たし、文学における大きな飛躍を示している。 拡張対角化プロセスのような単純かつ強力な確率的ツールと分析手法を用いることで,jl lemma 理論の基礎を固めるだけでなく,その実用性も拡張し,現代の計算アルゴリズムにおいてその適応性と重要性を示している。

In this work, we present a simple and unified analysis of the Johnson-Lindenstrauss (JL) lemma, a cornerstone in the field of dimensionality reduction critical for managing high-dimensional data. Our approach not only simplifies the understanding but also unifies various constructions under the JL framework, including spherical, binary-coin, sparse JL, Gaussian and sub-Gaussian models. This simplification and unification make significant strides in preserving the intrinsic geometry of data, essential across diverse applications from streaming algorithms to reinforcement learning. Notably, we deliver the first rigorous proof of the spherical construction's effectiveness and provide a general class of sub-Gaussian constructions within this simplified framework. At the heart of our contribution is an innovative extension of the Hanson-Wright inequality to high dimensions, complete with explicit constants, marking a substantial leap in the literature. By employing simple yet powerful probabilistic tools and analytical techniques, such as an enhanced diagonalization process, our analysis not only solidifies the JL lemma's theoretical foundation but also extends its practical reach, showcasing its adaptability and importance in contemporary computational algorithms.
翻訳日:2024-02-22 18:51:31 公開日:2024-02-21
# 独立サンプリングを用いた異種無線ネットワークにおける適応フェデレーション学習

Adaptive Federated Learning in Heterogeneous Wireless Networks with Independent Sampling ( http://arxiv.org/abs/2402.10097v2 )

ライセンス: Link先を確認
Jiaxiang Geng, Yanzhao Hou, Xiaofeng Tao, Juncheng Wang and Bing Luo(参考訳) フェデレーション学習(fl)アルゴリズムは通常、ストラグラー問題に対処するためにクライアントのランダムサブセットをサンプリングし、通信効率を向上させる。 最近の研究では、様々なクライアントサンプリング手法が提案されているが、実際の異種無線ネットワークと一致しない、ジョイントシステムとデータ均一性設計に制限がある。 本研究では,FLのウォールクロック学習時間を最小限に抑えるために,データ不均一性とシステム不均一性を考慮した新たなクライアントサンプリング手法を提案する。 まず,非凸損失関数に対して独立なクライアントサンプリングを施した新しい収束境界を導出し,適応帯域割り当て方式を提案する。 さらに,データとシステムの不均一性を考慮しつつ,flの壁時計時間を最小限に抑えるために,収束ラウンドの上界と期待毎のトレーニング時間に基づく効率的な独立クライアントサンプリングアルゴリズムを提案する。 実世界のプロトタイプを用いた実用的な無線ネットワーク環境下での実験結果から,提案手法は様々なトレーニングモデルやデータセットにおいて,現在最高のサンプリング方式よりも大幅に優れていた。

Federated Learning (FL) algorithms commonly sample a random subset of clients to address the straggler issue and improve communication efficiency. While recent works have proposed various client sampling methods, they have limitations in joint system and data heterogeneity design, which may not align with practical heterogeneous wireless networks. In this work, we advocate a new independent client sampling strategy to minimize the wall-clock training time of FL, while considering data heterogeneity and system heterogeneity in both communication and computation. We first derive a new convergence bound for non-convex loss functions with independent client sampling and then propose an adaptive bandwidth allocation scheme. Furthermore, we propose an efficient independent client sampling algorithm based on the upper bounds on the convergence rounds and the expected per-round training time, to minimize the wall-clock time of FL, while considering both the data and system heterogeneity. Experimental results under practical wireless network settings with real-world prototype demonstrate that the proposed independent sampling scheme substantially outperforms the current best sampling schemes under various training models and datasets.
翻訳日:2024-02-22 18:51:08 公開日:2024-02-21
# AI病院 : 臨床診断における内科医としてのLLMの相互評価と連携

AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern Doctors for Clinical Diagnosis ( http://arxiv.org/abs/2402.09742v2 )

ライセンス: Link先を確認
Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xi, Fei Huang, Jingren Zhou(参考訳) 医療におけるLarge Language Models (LLMs) の導入は大きな進歩である。 しかし、このアプリケーションは、そのインタラクティブな潜在能力を十分に活用していない、差別的および質問応答タスクに限定されている。 この制限に対処するため,本稿では,リアルタイム対話型診断環境を構築するためのフレームワークであるAI Hospitalを提案する。 手順をシミュレートするために,我々は高品質な医療記録を収集し,患者,検査官,医療監督エージェントを作成する。 AI HospitalはLLMのインタラクティブな評価とコラボレーションに使用される。 まず,多視点医療評価(MVME)ベンチマークを作成し,様々なLSMが内科医の対話的診断を行う。 その後, 診断精度を向上させるため, 医院長の監督のもと, 反復的な議論と紛争解決プロセスを伴う協調的なメカニズムを導入する。 実験では,AI病院の信頼性を検証した。 その結果, 臨床相談におけるLLMの適用可能性だけでなく, 紛争解決に焦点を当てた協調手法の有効性も確認できた。

The incorporation of Large Language Models (LLMs) in healthcare marks a significant advancement. However, the application has predominantly been limited to discriminative and question-answering tasks, which does not fully leverage their interactive potential. To address this limitation, our paper presents AI Hospital, a framework designed to build a real-time interactive diagnosis environment. To simulate the procedure, we collect high-quality medical records to create patient, examiner, and medical director agents. AI Hospital is then utilized for the interactive evaluation and collaboration of LLMs. Initially, we create a Multi-View Medical Evaluation (MVME) benchmark where various LLMs serve as intern doctors for interactive diagnosis. Subsequently, to improve diagnostic accuracy, we introduce a collaborative mechanism that involves iterative discussions and a dispute resolution process under the supervision of the medical director. In our experiments, we validate the reliability of AI Hospital. The results not only explore the feasibility of apply LLMs in clinical consultation but also confirm the effectiveness of the dispute resolution focused collaboration method.
翻訳日:2024-02-22 18:50:48 公開日:2024-02-21
# 自己駆動型センサとディープラーニングを組み合わせた人工知能応用の進歩

Progress in artificial intelligence applications based on the combination of self-driven sensors and deep learning ( http://arxiv.org/abs/2402.09442v2 )

ライセンス: Link先を確認
Weixiang Wan, Wenjian Sun, Qiang Zeng, Linying Pan, Jingyu Xu, Bo Liu(参考訳) モノのインターネット時代において、持続可能な電源、展開が容易で柔軟な使用が可能なスマートセンサーシステムの開発は、解決が難しい問題となっている。 従来の電源には、頻繁に交換や充電といった問題があり、ウェアラブルデバイスの開発を制限している。 接触分離摩擦ナノ発電機 (teng) を多孔性チレン (ptfe) とアルミニウム (ai) ホイルを用いて作製した。 人間の運動エネルギーは人体アレンジメントによって収集され、出力電気信号の変化に応じて人間の運動姿勢が監視された。 2012年、Academician Wang Zhong lin と彼のチームは、マックスウェルの変位電流を駆動力として、機械的刺激を直接電気信号に変換することで、自己駆動型センサーとして使用できるトリボ誘電体ナノジェネレータ (TENG) を発明した。 テングベースのセンサは、単純な構造と高瞬時電力密度の利点があり、インテリジェントセンサーシステムを構築する上で重要な手段となる。 同時に、低コストで開発サイクルが短く、強力なデータ処理能力と予測能力を持つ機械学習は、TENGが生成する多数の電気信号の処理に重大な影響を及ぼし、TENGセンサーと組み合わせることで、将来的にはインテリジェントセンサーネットワークの急速な開発が促進される。 そこで本稿は, 音声認識能力に優れ, ユビキタスセンサネットワークにおける音認識モジュールアーキテクチャの実現可能性を評価することを目的とした, TENG のインテリジェントな音響監視・認識システムに基づく。

In the era of Internet of Things, how to develop a smart sensor system with sustainable power supply, easy deployment and flexible use has become a difficult problem to be solved. The traditional power supply has problems such as frequent replacement or charging when in use, which limits the development of wearable devices. The contact-to-separate friction nanogenerator (TENG) was prepared by using polychotomy thy lene (PTFE) and aluminum (AI) foils. Human motion energy was collected by human body arrangement, and human motion posture was monitored according to the changes of output electrical signals. In 2012, Academician Wang Zhong lin and his team invented the triboelectric nanogenerator (TENG), which uses Maxwell displacement current as a driving force to directly convert mechanical stimuli into electrical signals, so it can be used as a self-driven sensor. Teng-based sensors have the advantages of simple structure and high instantaneous power density, which provides an important means for building intelligent sensor systems. At the same time, machine learning, as a technology with low cost, short development cycle, strong data processing ability and prediction ability, has a significant effect on the processing of a large number of electrical signals generated by TENG, and the combination with TENG sensors will promote the rapid development of intelligent sensor networks in the future. Therefore, this paper is based on the intelligent sound monitoring and recognition system of TENG, which has good sound recognition capability, and aims to evaluate the feasibility of the sound perception module architecture in ubiquitous sensor networks.
翻訳日:2024-02-22 18:50:03 公開日:2024-02-21
# アルゴリズム支援意思決定における説得・委任・私的情報

Persuasion, Delegation, and Private Information in Algorithm-Assisted Decisions ( http://arxiv.org/abs/2402.09384v2 )

ライセンス: Link先を確認
Ruqing Xu(参考訳) プリンシパルは、バイナリ状態の公開観測可能な予測を生成するアルゴリズムを設計する。 彼女は、その予測に基づいて直接行動するか、あるいは個人的な情報を持つエージェントに決定を委譲するかを判断しなければならない。 このような環境における予測アルゴリズムの最適設計と代入規則について検討する。 1) 代表団が最適であることと, 代理人がエージェントの情報を観察していた場合と同じ二分決定を行う場合のみである。 2)プリンシパルがアルゴリズムの予測に作用できる場合でも,最も情報性の高いアルゴリズムが最適である可能性がある。 代わりに、最適なアルゴリズムは、ある状態に関するより多くの情報を提供し、他方に関する情報を制限することができる。 (3)「人間のループ」を維持したり、最大予測精度を必要とするような、より詳細な情報提供を目的とした政策は、人間やアルゴリズムの助けがないシステムに比べて、決定品質を著しく悪化させる可能性がある。 これらの結果は,アルゴリズムと意思決定者の共通の嗜好の不一致を緩和するための措置が講じられなければ,人間と機械の協調の低パフォーマンスを予測する。

A principal designs an algorithm that generates a publicly observable prediction of a binary state. She must decide whether to act directly based on the prediction or to delegate the decision to an agent with private information but potential misalignment. We study the optimal design of the prediction algorithm and the delegation rule in such environments. Three key findings emerge: (1) Delegation is optimal if and only if the principal would make the same binary decision as the agent had she observed the agent's information. (2) Providing the most informative algorithm may be suboptimal even if the principal can act on the algorithm's prediction. Instead, the optimal algorithm may provide more information about one state and restrict information about the other. (3) Well-intentioned policies aiming to provide more information, such as keeping a "human-in-the-loop" or requiring maximal prediction accuracy, could strictly worsen decision quality compared to systems with no human or no algorithmic assistance. These findings predict the underperformance of human-machine collaborations if no measures are taken to mitigate common preference misalignment between algorithms and human decision-makers.
翻訳日:2024-02-22 18:49:31 公開日:2024-02-21
# ECMを超えたニューラルネットワーク強化ビデオ符号化フレームワーク

A Neural-network Enhanced Video Coding Framework beyond ECM ( http://arxiv.org/abs/2402.08397v2 )

ライセンス: Link先を確認
Yanchen Zhao, Wenxuan He, Chuanmin Jia, Qizhe Wang, Junru Li, Yue Li, Chaoyi Lin, Kai Zhang, Li Zhang, Siwei Ma(参考訳) 本稿では,従来のコーディング手法の限界を超えた深層学習に基づくアプローチの実証的紹介を行う,ハイブリッドビデオ圧縮フレームワークを提案する。 提案するハイブリッドフレームワークは,Versatile Video Coding (VVC) 標準のさらなる拡張である Enhanced Compression Model (ECM) に基づいて構築されている。 我々は、ブロック分割、深層学習に基づくループフィルタ、以前はECMに含まれていなかったブロック重要度マッピング(BIM)の活性化など、よく設計されたコーディング技術を用いて、最新のECM参照ソフトウェアを拡張し、さらに符号化性能を向上した。 ECM-10.0と比較すると,Y,U,Vの各コンポーネントをランダムアクセス(RA)構成で6.26,13.33,12.33BDレートで保存できる。

In this paper, a hybrid video compression framework is proposed that serves as a demonstrative showcase of deep learning-based approaches extending beyond the confines of traditional coding methodologies. The proposed hybrid framework is founded upon the Enhanced Compression Model (ECM), which is a further enhancement of the Versatile Video Coding (VVC) standard. We have augmented the latest ECM reference software with well-designed coding techniques, including block partitioning, deep learning-based loop filter, and the activation of block importance mapping (BIM) which was integrated but previously inactive within ECM, further enhancing coding performance. Compared with ECM-10.0, our method achieves 6.26, 13.33, and 12.33 BD-rate savings for the Y, U, and V components under random access (RA) configuration, respectively.
翻訳日:2024-02-22 18:48:49 公開日:2024-02-21
# Punctuation Restorationはスーパービジョンなしで構造理解を改善する

Punctuation Restoration Improves Structure Understanding without Supervision ( http://arxiv.org/abs/2402.08382v2 )

ライセンス: Link先を確認
Junghyun Min, Minho Lee, Woochul Lee, Yeonsoo Lee(参考訳) 教師なし学習の目的である言語モデリングやデノイズ化は、自然言語理解から会話タスクに至るまで、様々な下流アプリケーションを実行する事前訓練されたモデルを作成する上で重要な役割を果たす。 しかし、最近の大規模言語モデルの印象的な生成能力にもかかわらず、テキストの遅れの中で構文や意味構造をキャプチャする能力がある。 機械の言語性能と能力のミスマッチは、現在一般的な事前学習対象である計算システムへの言語構造知識の移転不足に起因すると仮定する。 学習目標としての句読点の復元は、名前付きエンティティ認識、オープン情報抽出、チャンキング、パート・オブ・スパイチ・タグングなどの構造関連タスクにおいて、分布内および分布外のパフォーマンスが向上することを示す。 句読点復元は、構造理解を改善し、自然言語のより強固な構造認識表現をもたらす効果的な学習目標である。

Unsupervised learning objectives like language modeling and de-noising constitute a significant part in producing pre-trained models that perform various downstream applications from natural language understanding to conversational tasks. However, despite impressive generative capabilities of recent large language models, their abilities to capture syntactic or semantic structure within text lag behind. We hypothesize that the mismatch between linguistic performance and competence in machines is attributable to insufficient transfer of linguistic structure knowledge to computational systems with currently popular pre-training objectives. We show that punctuation restoration as a learning objective improves in- and out-of-distribution performance on structure-related tasks like named entity recognition, open information extraction, chunking, and part-of-speech tagging. Punctuation restoration is an effective learning objective that can improve structure understanding and yield a more robust structure-aware representations of natural language.
翻訳日:2024-02-22 18:48:33 公開日:2024-02-21
# 拡張性大言語モデルファインタニングのための微分プライベートゼロ階法

Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning ( http://arxiv.org/abs/2402.07818v2 )

ライセンス: Link先を確認
Z Liu, J Lou, W Bao, Z Qin, K Ren(参考訳) タスク固有のデータセットの微調整は、様々な下流タスクに事前学習されたLLMの強力な能力を活用する、広く採用されているパラダイムである。 LLMsファインタニングの人気とそれに伴うプライバシー上の懸念により、事前訓練されたLCMsの差分プライベート(DP)ファインタニングは、タスク固有のデータセットのプライバシ保護に注目が集まっている。 DP LLMファインタニングメソッドの設計コアに注目することは、プライバシ、ユーティリティ、スケーラビリティの間の十分なトレードオフである。 既存の手法のほとんどはDP-SGDの精巧な研究に基づいている。 DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。 本稿では,より効率的なゼロ階勾配で勾配を近似することにより,SGDのスケーラビリティボトルネックを回避する,LCM事前学習のためのDPゼロ階法の可能性について検討する。 本稿では, ゼロオーダー法をSGDのドロップイン置換として扱うのではなく, 理論的, 実験的に総合的研究を行う。 まず,キーハイパーパラメータを動的にスケジュールするステージワイズdp零次法を提案する。 この設計は、dpランダム摂動と零次法の勾配近似誤差の相乗効果と、その微調整軌道への影響を基礎としている。 第2に,追加データや追加のプライバシ予算を必要とせず,データフリーな刈り取り手法を再提案することで識別可能なパラメータを削減し,スケーラビリティをさらに向上させる。 提案手法の理論的解析を行う。 我々は,エンコーダのみのマスク付き言語モデルとデコーダのみの自己回帰型言語モデルの両方について広範な実証分析を行い,スケーラビリティと実用性の観点から印象的な結果を得た。

Finetuning on task-specific datasets is a widely-embraced paradigm of harnessing the powerful capability of pretrained LLMs for various downstream tasks. Due to the popularity of LLMs finetuning and its accompanying privacy concerns, differentially private (DP) finetuning of pretrained LLMs has garnered increasing attention to safeguarding the privacy of task-specific datasets. Lying at the design core of DP LLM finetuning methods is the satisfactory tradeoff between privacy, utility, and scalability. Most existing methods build upon the seminal work of DP-SGD. Despite pushing the scalability of DP-SGD to its limit, DP-SGD-based finetuning methods are unfortunately limited by the inherent inefficiency of SGD. In this paper, we investigate the potential of DP zeroth-order methods for LLM pretraining, which avoids the scalability bottleneck of SGD by approximating the gradient with the more efficient zeroth-order gradient. Rather than treating the zeroth-order method as a drop-in replacement for SGD, this paper presents a comprehensive study both theoretically and empirically. First, we propose the stagewise DP zeroth-order method that dynamically schedules key hyperparameters. This design is grounded on the synergy between DP random perturbation and the gradient approximation error of the zeroth-order method, and its effect on finetuning trajectory. Second, we further enhance the scalability by reducing the trainable parameters that are identified by repurposing a data-free pruning technique requiring no additional data or extra privacy budget. We provide theoretical analysis for both proposed methods. We conduct extensive empirical analysis on both encoder-only masked language model and decoder-only autoregressive language model, achieving impressive results in terms of scalability and utility.
翻訳日:2024-02-22 18:47:49 公開日:2024-02-21
# 戦略的環境における学習のためのスケーリング法則の再考

Rethinking Scaling Laws for Learning in Strategic Environments ( http://arxiv.org/abs/2402.07588v2 )

ライセンス: Link先を確認
Tinashe Handina and Eric Mazumdar(参考訳) より大規模な機械学習モデルのデプロイは、モデルがより表現力のある$\unicode{x2013}$と、より多くのデータが$\unicode{x2013}$にアクセスできるほどパフォーマンスが向上する、というコンセンサスを反映している。 モデルがさまざまな現実世界のシナリオにデプロイされると、必然的に戦略的環境に直面します。 本研究では,モデルと戦略的相互作用の相互作用がスケーリング法則にどのように影響するかという自然問題を考える。 戦略的相互作用が従来のスケーリング法則の見解を破る可能性があることが分かりました。$\unicode{x2013}$ つまり、モデルが大きくなり、(無限のデータであっても)表現的になるにつれて、パフォーマンスが必ずしも単調に改善されるとは限らないということです。 この現象は,戦略回帰,戦略分類,マルチエージェント強化学習といったいくつかの文脈において,単に自己のモデルや政策クラスの表現性を制限することによって,厳密な平衡結果が得られるという戦略環境の例を通して,その意味を示す。 これらの例に動機づけられ、エージェントがゲーム内のアクションセットとして使用する異なるモデルクラスの中から選択しようとするゲームにおけるモデル選択の新しいパラダイムを提案する。

The deployment of ever-larger machine learning models reflects a growing consensus that the more expressive the model$\unicode{x2013}$and the more data one has access to$\unicode{x2013}$the more one can improve performance. As models get deployed in a variety of real world scenarios, they inevitably face strategic environments. In this work, we consider the natural question of how the interplay of models and strategic interactions affects scaling laws. We find that strategic interactions can break the conventional view of scaling laws$\unicode{x2013}$meaning that performance does not necessarily monotonically improve as models get larger and/ or more expressive (even with infinite data). We show the implications of this phenomenon in several contexts including strategic regression, strategic classification, and multi-agent reinforcement learning through examples of strategic environments in which$\unicode{x2013}$by simply restricting the expressivity of one's model or policy class$\unicode{x2013}$one can achieve strictly better equilibrium outcomes. Motivated by these examples, we then propose a new paradigm for model-selection in games wherein an agent seeks to choose amongst different model classes to use as their action set in a game.
翻訳日:2024-02-22 18:47:17 公開日:2024-02-21
# 遺伝子発現データによる科学発見のためのAI製科学者チームを目指して

Toward a Team of AI-made Scientists for Scientific Discovery from Gene Expression Data ( http://arxiv.org/abs/2402.12391v2 )

ライセンス: Link先を確認
Haoyang Liu, Yijiang Li, Jinglin Jian, Yuxuan Cheng, Jianrong Lu, Shuyi Guo, Jinglei Zhu, Mianchen Zhang, Miantong Zhang, Haohan Wang(参考訳) 機械学習は科学的発見のための強力なツールとして登場し、研究者は複雑なデータセットから意味のある洞察を抽出できる。 例えば、疾患予測遺伝子を遺伝子発現データから同定し、医療を大幅に進歩させた。 しかし、そのようなデータセットを分析する従来のプロセスは、データの選択、処理、分析に多大な努力と専門知識を必要とする。 この課題に対処するために,我々は新たなフレームワークであるai-made scientists(tais)を導入し,科学的発見パイプラインを合理化する。 TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレーションされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。 これらの役割は、データサイエンティストが一般的に行うタスクを再現するために協力し、特に疾患予測遺伝子を特定することに焦点を当てている。 さらに、遺伝子同定におけるTAISの有効性を評価するためのベンチマークデータセットをキュレートし、科学的探索の効率と範囲を大幅に向上させるシステムの可能性を示した。 我々の発見は、大規模な言語モデルによる科学的発見を自動化するための確かなステップである。

Machine learning has emerged as a powerful tool for scientific discovery, enabling researchers to extract meaningful insights from complex datasets. For instance, it has facilitated the identification of disease-predictive genes from gene expression data, significantly advancing healthcare. However, the traditional process for analyzing such datasets demands substantial human effort and expertise for the data selection, processing, and analysis. To address this challenge, we introduce a novel framework, a Team of AI-made Scientists (TAIS), designed to streamline the scientific discovery pipeline. TAIS comprises simulated roles, including a project manager, data engineer, and domain expert, each represented by a Large Language Model (LLM). These roles collaborate to replicate the tasks typically performed by data scientists, with a specific focus on identifying disease-predictive genes. Furthermore, we have curated a benchmark dataset to assess TAIS's effectiveness in gene identification, demonstrating our system's potential to significantly enhance the efficiency and scope of scientific exploration. Our findings represent a solid step towards automating scientific discovery through large language models.
翻訳日:2024-02-22 18:34:53 公開日:2024-02-21
# 半非同期フェデレーション学習の高速化

Accelerating Semi-Asynchronous Federated Learning ( http://arxiv.org/abs/2402.10991v2 )

ライセンス: Link先を確認
Changxin Xu, Yuxin Qiao, Zhanxin Zhou, Fanghao Ni, and Jize Xiong(参考訳) Federated Learning(FL)は、クライアントがプライバシを保持しながらデータ上でモデルをトレーニングできる分散機械学習パラダイムである。 フェデレート平均化(FedAvg)などのFLアルゴリズムは、多くのシナリオにおいてよく収束することが示されている。 しかし、これらの手法ではクライアントがローカルアップデートを同期的にサーバにアップロードする必要があるため、現実的なFL設定では遅くて信頼性が低い。 この問題に対処するため、研究者らは、クライアントが古いグローバルモデルを使用してローカルデータのトレーニングを継続できる非同期FLメソッドを開発した。 しかしながら、これらの手法のほとんどは、相対的なコントリビューションを考慮せずに、単に受信した更新をすべて集約する。 本稿では,受信した更新の安定性と統計的不均一性を考慮したコントリビューション対応非同期FL法を提案する。 本手法は,これらの要因に基づいて各更新のコントリビューションを動的に調整し,既存の方法と比較して収束を高速化する。

Federated Learning (FL) is a distributed machine learning paradigm that allows clients to train models on their data while preserving their privacy. FL algorithms, such as Federated Averaging (FedAvg) and its variants, have been shown to converge well in many scenarios. However, these methods require clients to upload their local updates to the server in a synchronous manner, which can be slow and unreliable in realistic FL settings. To address this issue, researchers have developed asynchronous FL methods that allow clients to continue training on their local data using a stale global model. However, most of these methods simply aggregate all of the received updates without considering their relative contributions, which can slow down convergence. In this paper, we propose a contribution-aware asynchronous FL method that takes into account the staleness and statistical heterogeneity of the received updates. Our method dynamically adjusts the contribution of each update based on these factors, which can speed up convergence compared to existing methods.
翻訳日:2024-02-22 18:34:35 公開日:2024-02-21
# ChemReasoner: 量子化学フィードバックを用いた大規模言語モデルの知識空間上のヒューリスティック検索

ChemReasoner: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback ( http://arxiv.org/abs/2402.10980v2 )

ライセンス: Link先を確認
Henry W. Sprueill, Carl Edwards, Khushbu Agarwal, Mariefel V. Olarte, Udishnu Sanyal, Conrad Johnston, Hongbin Liu, Heng Ji, Sutanay Choudhury(参考訳) 新しい触媒の発見は、持続可能な未来へ移行するために、新しいより効率的な化学プロセスの設計に不可欠である。 量子化学に基づく3次元原子論表現からのフィードバックで言語推論を統一するAI誘導型計算スクリーニングフレームワークを提案する。 提案手法は,大規模言語モデル(LLM)と原子間グラフニューラルネットワーク(GNN)によるフィードバックの反復的組み合わせにより,エージェントが高い有効触媒を積極的に探索する不確実な環境として触媒発見を定式化する。 中間探索段階における同定触媒は, 空間配向, 反応経路, 安定性に基づいて構造評価を行う。 吸着エネルギーとバリアに基づくスコーリング機能は、LLMの知識空間におけるエネルギー的に好ましい高効率触媒への探索を後押しする。 本研究では,人間の入力を使わずに探索を自動的に案内する計画手法を導入する。 言語誘導推論と計算化学フィードバックを統合することで、私たちの研究はAIが加速し、信頼できる触媒発見を開拓しました。

The discovery of new catalysts is essential for the design of new and more efficient chemical processes in order to transition to a sustainable future. We introduce an AI-guided computational screening framework unifying linguistic reasoning with quantum-chemistry based feedback from 3D atomistic representations. Our approach formulates catalyst discovery as an uncertain environment where an agent actively searches for highly effective catalysts via the iterative combination of large language model (LLM)-derived hypotheses and atomistic graph neural network (GNN)-derived feedback. Identified catalysts in intermediate search steps undergo structural evaluation based on spatial orientation, reaction pathways, and stability. Scoring functions based on adsorption energies and barriers steer the exploration in the LLM's knowledge space toward energetically favorable, high-efficiency catalysts. We introduce planning methods that automatically guide the exploration without human input, providing competitive performance against expert-enumerated chemical descriptor-based implementations. By integrating language-guided reasoning with computational chemistry feedback, our work pioneers AI-accelerated, trustworthy catalyst discovery.
翻訳日:2024-02-22 18:34:18 公開日:2024-02-21
# Dolosを用いた教育ソースコード盗作事件の発見と調査

Discovering and exploring cases of educational source code plagiarism with Dolos ( http://arxiv.org/abs/2402.10853v2 )

ライセンス: Link先を確認
Rien Maertens, Maarten Van Neyghem, Maxiem Geldhof, Charlotte Van Petegem, Niko Strijbol, Peter Dawyndt, Bart Mesuere(参考訳) ソースコードの盗作は教育実践において重要な問題であり、教育者はそのような学術的不正に対処するためにユーザーフレンドリーなツールを必要とする。 この記事では、教育ソースコードの盗作を検知し防止するツールの最先端エコシステムであるdolosの最新バージョンを紹介します。 新バージョンでは、ユーザエクスペリエンスの向上に重点が置かれている。 教育者は、ブラウザの新しいwebアプリからプラジャリズム検出パイプライン全体を実行できるようになり、インストールや設定は不要になった。 完全に再設計された分析ダッシュボードは、ソースファイルのコレクションが盗作の疑いのあるケースを含んでいるかどうかと、盗作がコレクション内にあるかどうかを即座に評価する。 ダッシュボードは階層的なナビゲーションをサポートし、疑わしいケースのズームインとアウトを容易にする。 クラスタはダッシュボード設計の不可欠な新しい要素であり、大規模な学生グループの間で盗作が起こりうるという観察を反映している。 さまざまなユーザニーズを満たすため、ソースコード盗作検出用のDolosソフトウェアスタックには、Webインターフェース、JSONアプリケーションプログラミングインターフェース(API)、コマンドラインインターフェース(CLI)、JavaScriptライブラリ、設定済みのDockerコンテナが含まれている。 Webアプリの明確なドキュメントと無償のインスタンスはhttps://dolos.ugent.be.comで見ることができる。 ソースコードもgithubで公開されている。

Source code plagiarism is a significant issue in educational practice, and educators need user-friendly tools to cope with such academic dishonesty. This article introduces the latest version of Dolos, a state-of-the-art ecosystem of tools for detecting and preventing plagiarism in educational source code. In this new version, the primary focus has been on enhancing the user experience. Educators can now run the entire plagiarism detection pipeline from a new web app in their browser, eliminating the need for any installation or configuration. Completely redesigned analytics dashboards provide an instant assessment of whether a collection of source files contains suspected cases of plagiarism and how widespread plagiarism is within the collection. The dashboards support hierarchically structured navigation to facilitate zooming in and out of suspect cases. Clusters are an essential new component of the dashboard design, reflecting the observation that plagiarism can occur among larger groups of students. To meet various user needs, the Dolos software stack for source code plagiarism detections now includes a web interface, a JSON application programming interface (API), a command line interface (CLI), a JavaScript library and a preconfigured Docker container. Clear documentation and a free-to-use instance of the web app can be found at https://dolos.ugent.be. The source code is also available on GitHub.
翻訳日:2024-02-22 18:34:02 公開日:2024-02-21
# 11MのHaystackで針を探す: 繰り返し記憶でLLMが見逃しているものを見つける

In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss ( http://arxiv.org/abs/2402.10790v2 )

ライセンス: Link先を確認
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev(参考訳) 本稿では,生成トランスモデルを用いた長文処理の課題に対処する。 異なるアプローチを評価するために、広範囲のテキスト中の分散事実を抽出・処理するモデルの能力を評価するために設計された新しいベンチマークであるbabilongを紹介する。 GPT-4とRAGのベンチマークを含む評価の結果,共通手法は最大10^4$の要素に対してのみ有効であることがわかった。 対照的に、繰り返しメモリを増強した微調整のGPT-2では、最大11ドルまでの10^6$要素を含むタスクを処理できる。 この成果は、これまでどのニューラルネットワークモデルでも処理された最も長い入力であり、長いシーケンスの処理能力が大幅に向上しているため、大きな飛躍である。

This paper addresses the challenge of processing long documents using generative transformer models. To evaluate different approaches, we introduce BABILong, a new benchmark designed to assess model capabilities in extracting and processing distributed facts within extensive texts. Our evaluation, which includes benchmarks for GPT-4 and RAG, reveals that common methods are effective only for sequences up to $10^4$ elements. In contrast, fine-tuning GPT-2 with recurrent memory augmentations enables it to handle tasks involving up to $11\times 10^6$ elements. This achievement marks a substantial leap, as it is by far the longest input processed by any neural network model to date, demonstrating a significant improvement in the processing capabilities for long sequences.
翻訳日:2024-02-22 18:33:39 公開日:2024-02-21
# aim: メタモルフィックセキュリティテストのための自動入力セットの最小化

AIM: Automated Input Set Minimization for Metamorphic Security Testing ( http://arxiv.org/abs/2402.10773v2 )

ライセンス: Link先を確認
Nazanin Bayati Chaleshtari, Yoann Marquer, Fabrizio Pastore, and Lionel C. Briand(参考訳) Webシステムのセキュリティテストは、クラフトインプットを生成して自動化することができるが、テストオラクルを自動化するソリューション、すなわち正しい出力と正しく区別するソリューションは、まだ予備的なままである。 実際、セキュリティの失敗は、有効な入力を悪意のある入力に変換するメタモルフィックな関係によって決定できる。 しかしながら、さらなるガイダンスなしでは、メタモルフィックな関係は通常、多くの入力セットで実行されるため、時間を要するため、メタモルフィックなテストは実用的ではない。 脆弱性検出機能を保ちながら、テストコストを削減するために入力を自動的に選択するアプローチであるAIMを提案する。 AIMにはクラスタリングベースのブラックボックスアプローチが含まれており、セキュリティ特性に基づいて同様の入力を識別する。 また、コストを最小化しながら、多様な入力を効率的に選択できる新しい遺伝的アルゴリズムにも依存している。 さらに、探索空間を縮小し、最小化処理を高速化するための問題還元成分を含む。 我々は、文書化された脆弱性で有名な2つのWebシステム、JenkinsとJoomlaにおけるAIMの有効性を評価した。 AIMの結果を4つの基準線と比較した。 全体として、AIMは、脆弱性検出を保ちながら、Jenkinsで84%、Joomlaで82%のメタモルフィックテスト時間を短縮した。 さらに、AIMは脆弱性カバレッジに関して考慮されたベースラインをすべて上回った。

Although the security testing of Web systems can be automated by generating crafted inputs, solutions to automate the test oracle, i.e., distinguishing correct from incorrect outputs, remain preliminary. Specifically, previous work has demonstrated the potential of metamorphic testing; indeed, security failures can be determined by metamorphic relations that turn valid inputs into malicious inputs. However, without further guidance, metamorphic relations are typically executed on a large set of inputs, which is time-consuming and thus makes metamorphic testing impractical. We propose AIM, an approach that automatically selects inputs to reduce testing costs while preserving vulnerability detection capabilities. AIM includes a clustering-based black box approach, to identify similar inputs based on their security properties. It also relies on a novel genetic algorithm able to efficiently select diverse inputs while minimizing their total cost. Further, it contains a problem-reduction component to reduce the search space and speed up the minimization process. We evaluated the effectiveness of AIM on two well-known Web systems, Jenkins and Joomla, with documented vulnerabilities. We compared AIM's results with four baselines. Overall, AIM reduced metamorphic testing time by 84% for Jenkins and 82% for Joomla, while preserving vulnerability detection. Furthermore, AIM outperformed all the considered baselines regarding vulnerability coverage.
翻訳日:2024-02-22 18:33:26 公開日:2024-02-21
# ジョブマッチングのための検索の学習

Learning to Retrieve for Job Matching ( http://arxiv.org/abs/2402.13435v1 )

ライセンス: Link先を確認
Jianqiang Shen, Yuchin Juan, Shaobo Zhang, Ping Liu, Wen Pu, Sriram Vasudevan, Qingquan Song, Fedor Borisyuk, Kay Qianqi Shen, Haichao Wei, Yunxiang Ren, Yeou S. Chiou, Sicong Kuang, Yuan Yin, Ben Zheng, Muchen Wu, Shaghayegh Gharghabi, Xiaoqing Wang, Huichao Xue, Qi Guo, Daniel Hewlett, Luke Simon, Liangjie Hong, Wenjing Zhang(参考訳) webスケールの検索システムは、通常、2段階のパラダイムである検索とランキングでスケーラビリティの課題に取り組む。 検索ステップは候補選択としても知られ、しばしば標準化されたエンティティを抽出し、逆インデックスを作成し、検索のための用語マッチングを実行する。 このような従来の手法は、手動および時間を要するクエリモデルの開発を必要とする。 本稿では、LinkedInの求人・推薦システムを強化するための学習検索技術の適用について論じる。 昇進雇用の領域では、主な目的は応募者の質を改善し、リクルーターの顧客に価値を提供することである。 これを実現するために、確認済みの雇用データを利用して求職者の求職資格を評価するグラフを構築し、学習したリンクを検索に利用する。 私たちの学習モデルは説明、デバッグ、調整が簡単です。 一方、有機的な仕事の焦点は求職者のエンゲージメントを最適化することである。 我々は,パーソナライズされた検索のための埋め込みを,メンバフィードバックの分類から派生した一連のルールによって強化することで,これを達成した。 従来の逆インデックスに基づく解に加えて、KNNと項マッチングの両方を効率的にサポートできるon-GPUソリューションを開発した。

Web-scale search systems typically tackle the scalability challenge with a two-step paradigm: retrieval and ranking. The retrieval step, also known as candidate selection, often involves extracting standardized entities, creating an inverted index, and performing term matching for retrieval. Such traditional methods require manual and time-consuming development of query models. In this paper, we discuss applying learning-to-retrieve technology to enhance LinkedIns job search and recommendation systems. In the realm of promoted jobs, the key objective is to improve the quality of applicants, thereby delivering value to recruiter customers. To achieve this, we leverage confirmed hire data to construct a graph that evaluates a seeker's qualification for a job, and utilize learned links for retrieval. Our learned model is easy to explain, debug, and adjust. On the other hand, the focus for organic jobs is to optimize seeker engagement. We accomplished this by training embeddings for personalized retrieval, fortified by a set of rules derived from the categorization of member feedback. In addition to a solution based on a conventional inverted index, we developed an on-GPU solution capable of supporting both KNN and term matching efficiently.
翻訳日:2024-02-22 17:48:23 公開日:2024-02-21
# 構造化木アライメントによる(音声)構成構文解析の評価

Structured Tree Alignment for Evaluation of (Speech) Constituency Parsing ( http://arxiv.org/abs/2402.13433v1 )

ライセンス: Link先を確認
Freda Shi, Kevin Gimpel, Karen Livescu(参考訳) 本稿では, 音声解析の課題に起因した, 区切り木間の類似度尺度であるStructured average-over-union ratio(STRUCT-IOU)を提案する。 STRUCT-IOUは、選挙区構文木(自動認識された音声単語境界)と接頭辞木(書き言葉)の比較を可能にする。 パラメータを計算するために,音声領域に強制アライメントを施して接地構文解析木を投影し,予測された接地構造成分を一定の制約下で予測されたものと整列させ,すべての整列構成ペアの平均IOUスコアを算出する。 STRUCT-IOUは単語境界を考慮に入れ、予測された単語と地上の真実が完全な1対1対応を持たないという課題を克服する。 テキスト・コンストラクエンス・パーシングの評価にもとづき,STRUCT-IOUはPARSEVAL (Black et al., 1991) よりも構文的に妥当なパースに対して高い耐性を示した。

We present the structured average intersection-over-union ratio (STRUCT-IOU), a similarity metric between constituency parse trees motivated by the problem of evaluating speech parsers. STRUCT-IOU enables comparison between a constituency parse tree (over automatically recognized spoken word boundaries) with the ground-truth parse (over written words). To compute the metric, we project the ground-truth parse tree to the speech domain by forced alignment, align the projected ground-truth constituents with the predicted ones under certain structured constraints, and calculate the average IOU score across all aligned constituent pairs. STRUCT-IOU takes word boundaries into account and overcomes the challenge that the predicted words and ground truth may not have perfect one-to-one correspondence. Extending to the evaluation of text constituency parsing, we demonstrate that STRUCT-IOU shows higher tolerance to syntactically plausible parses than PARSEVAL (Black et al., 1991).
翻訳日:2024-02-22 17:47:52 公開日:2024-02-21
# gradsafe:safety-criticalgradient analysisによるllmのunsafeプロンプトの検出

GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient Analysis ( http://arxiv.org/abs/2402.13494v1 )

ライセンス: Link先を確認
Yueqi Xie, Minghong Fang, Renjie Pi, Neil Gong(参考訳) 大きな言語モデル(LLM)は、安全でないプロンプトからの脅威に直面します。 既存の安全でないプロンプトを検出する方法は、主にオンラインモデレーションAPIまたは微調整LDMである。 しかし、これらの戦略は、広範囲でリソース集約的なデータ収集とトレーニングプロセスを必要とすることが多い。 本研究では,LLMにおける安全クリティカルパラメータの勾配を精査することにより,安全でないプロンプトを効果的に検出するGradSafeを提案する。 LLMの安全でないプロンプトに対する損失の勾配とコンプライアンス応答との組み合わせは、特定の安全クリティカルパラメータに類似したパターンを示す。 対照的に、safeプロンプトは著しく異なる勾配パターンをもたらす。 この観察に基づいてgradsafeは、プロンプト(コンプライアンス応答とペア化)からの勾配を分析して、安全でないプロンプトを正確に検出する。 Llama Guardは、大規模なデータセットで微調整されているにも関わらず、安全でないプロンプトを検出するのに優れています。 この優れたパフォーマンスは、ToxicChatとXSTestで評価されたように、ゼロショットとアダプションの両方のシナリオで一貫しています。 ソースコードはhttps://github.com/xyq7/GradSafeで入手できる。

Large Language Models (LLMs) face threats from unsafe prompts. Existing methods for detecting unsafe prompts are primarily online moderation APIs or finetuned LLMs. These strategies, however, often require extensive and resource-intensive data collection and training processes. In this study, we propose GradSafe, which effectively detects unsafe prompts by scrutinizing the gradients of safety-critical parameters in LLMs. Our methodology is grounded in a pivotal observation: the gradients of an LLM's loss for unsafe prompts paired with compliance response exhibit similar patterns on certain safety-critical parameters. In contrast, safe prompts lead to markedly different gradient patterns. Building on this observation, GradSafe analyzes the gradients from prompts (paired with compliance responses) to accurately detect unsafe prompts. We show that GradSafe, applied to Llama-2 without further training, outperforms Llama Guard, despite its extensive finetuning with a large dataset, in detecting unsafe prompts. This superior performance is consistent across both zero-shot and adaptation scenarios, as evidenced by our evaluations on the ToxicChat and XSTest. The source code is available at https://github.com/xyq7/GradSafe.
翻訳日:2024-02-22 17:35:19 公開日:2024-02-21
# 量子抽象機械は

The Quantum Abstract Machine ( http://arxiv.org/abs/2402.13469v1 )

ライセンス: Link先を確認
Liyi Li, Le Chang, Rance Cleaveland, Mingwei Zhu and Xiaodi Wu(参考訳) 本稿では,量子通信プロトコルの抽象的かつ正確な設計と機能的検証を支援するための量子行動モデルを開発する。 この研究は、量子物理学において非特殊主義者が利用できる量子通信システムを開発するための概念ツールの必要性と、基礎となる量子現象の有用な抽象化を正しく捉えることによる。 我々のアプローチでは、よく知られた量子回路に対応する演算を量子抽象機械(QAM)を定義するが、これらの演算はベリーやボードールの化学抽象機械と似たスタイルで直接抽象的意味論を与える。 本稿では,QAMのセマンティクスを定義し,既存の量子通信プロトコルのモデル化と推論にどのように使用されるかを示す。

This paper develops a model of quantum behavior that is intended to support the abstract yet accurate design and functional verification of quantum communication protocols. The work is motivated by the need for conceptual tools for the development of quantum-communication systems that are usable by non-specialists in quantum physics while also correctly capturing at a useful abstraction the underlying quantum phenomena. Our approach involves defining a quantum abstract machine (QAM) whose operations correspond to well-known quantum circuits; these operations, however, are given direct abstract semantics in a style similar to that of Berry's and Boudol's Chemical Abstract Machine. This paper defines the QAM's semantics and shows via examples how it may be used to model and reason about existing quantum communication protocols.
翻訳日:2024-02-22 17:35:00 公開日:2024-02-21
# STENCIL: コールドスタートアクティブラーニングのためのサブモジュール相互情報に基づく弱スーパービジョン

STENCIL: Submodular Mutual Information Based Weak Supervision for Cold-Start Active Learning ( http://arxiv.org/abs/2402.13468v1 )

ライセンス: Link先を確認
Nathan Beck, Adithya Iyer, Rishabh Iyer(参考訳) NLPアプリケーションにおける事前訓練済みモデルの微調整が普及するにつれて、特に大きな言語モデルにおけるパラメータ数の増加に伴い、注釈付きデータのコーパスが大きいことが要求される。 モデルパフォーマンスを最大に向上させるためにラベルのないインスタンスをマイニングし注釈付けしようとするアクティブラーニングは、アノテーションコストを削減するための一般的な選択肢であるが、ほとんどのメソッドは、クラス不均衡を無視したり、初期アノテーション付きデータへのアクセスを前提としたり、稀なクラスを改善する前に複数のアクティブラーニング選択を必要とする。 本稿では,一連のテキスト例と最近提案されたサブモジュール相互情報を利用して,アノテータによって強くラベル付けされた弱いラベル付きレアクラスのインスタンス群を選択する。 STENCILは、クラス不均衡のコールドスタート設定において、一般的なアクティブな学習方法よりも、複数のテキスト分類データセットに対して10\%-24\%$とレアクラスのF-1スコアを17\%-40\%$に改善することを示した。

As supervised fine-tuning of pre-trained models within NLP applications increases in popularity, larger corpora of annotated data are required, especially with increasing parameter counts in large language models. Active learning, which attempts to mine and annotate unlabeled instances to improve model performance maximally fast, is a common choice for reducing the annotation cost; however, most methods typically ignore class imbalance and either assume access to initial annotated data or require multiple rounds of active learning selection before improving rare classes. We present STENCIL, which utilizes a set of text exemplars and the recently proposed submodular mutual information to select a set of weakly labeled rare-class instances that are then strongly labeled by an annotator. We show that STENCIL improves overall accuracy by $10\%-24\%$ and rare-class F-1 score by $17\%-40\%$ on multiple text classification datasets over common active learning methods within the class-imbalanced cold-start setting.
翻訳日:2024-02-22 17:34:47 公開日:2024-02-21
# コントラスト学習を用いた教師なし学習に基づく物体検出

Unsupervised learning based object detection using Contrastive Learning ( http://arxiv.org/abs/2402.13465v1 )

ライセンス: Link先を確認
Chandan Kumar, Jansel Herrera-Gerena, John Just, Matthew Darr, Ali Jannesari(参考訳) 画像に基づく物体検出の訓練は、オブジェクト検出の複雑さだけでなく、潜在的に多様で騒がしい環境でオブジェクトを正確にローカライズする複雑さも伴うため、驚くべき課題となっている。 例えば、車両に搭載されたカメラは、様々な現実世界のシナリオにおいて、膨大なデータを無益にキャプチャすることができる。 そこで本研究では,教師なし・自己教師型学習を通じて,単段階物体検出器を訓練するための地中破壊手法を提案する。 我々の最先端のアプローチはラベリングプロセスに革命をもたらす可能性を秘めており、手動アノテーションに関連する時間とコストを大幅に削減する。 さらに、これまで達成できなかった研究機会、特に広範囲なラベルの欠如した大規模で多様で挑戦的なデータセットへの道を開く。 分類タスクを主目的とする非教師なし学習手法が一般的であるのに対し,本手法はオブジェクト検出というユニークな課題に挑む。 我々は、画像間のコントラスト学習の概念を開拓し、物体検出に不可欠な重要な位置情報の取得を可能にした。 この方法は、この位置情報を十分に学習し、表現し、情報的ヒートマップを生成する。 その結果、コンピュータビジョンの分野における教師なし物体検出の分野におけるランダム初期化よりも、およそ \textbf{15x} の画期的なブレークスルーを示す、 \textbf{89.2\%} の優れた精度を示すことができた。

Training image-based object detectors presents formidable challenges, as it entails not only the complexities of object detection but also the added intricacies of precisely localizing objects within potentially diverse and noisy environments. However, the collection of imagery itself can often be straightforward; for instance, cameras mounted in vehicles can effortlessly capture vast amounts of data in various real-world scenarios. In light of this, we introduce a groundbreaking method for training single-stage object detectors through unsupervised/self-supervised learning. Our state-of-the-art approach has the potential to revolutionize the labeling process, substantially reducing the time and cost associated with manual annotation. Furthermore, it paves the way for previously unattainable research opportunities, particularly for large, diverse, and challenging datasets lacking extensive labels. In contrast to prevalent unsupervised learning methods that primarily target classification tasks, our approach takes on the unique challenge of object detection. We pioneer the concept of intra-image contrastive learning alongside inter-image counterparts, enabling the acquisition of crucial location information essential for object detection. The method adeptly learns and represents this location information, yielding informative heatmaps. Our results showcase an outstanding accuracy of \textbf{89.2\%}, marking a significant breakthrough of approximately \textbf{15x} over random initialization in the realm of unsupervised object detection within the field of computer vision.
翻訳日:2024-02-22 17:34:28 公開日:2024-02-21
# RefuteBench: 大規模言語モデルに対するRefuting命令フォローの評価

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models ( http://arxiv.org/abs/2402.13463v1 )

ライセンス: Link先を確認
Jianhao Yan, Yun Luo, Yue Zhang(参考訳) 大規模言語モデル(LLM)の適用範囲はますます拡大している。 実際に使う場合、ユーザーはモデルの出力に基づいてフィードバックを提供し、フィードバックに応じてレスポンスを完了できるレスポンシブモデルを求めている。 モデルがユーザの否定的なフィードバックに適切に応答し、実行に一貫して追従できるかどうかは、完全には分析されていない。 そこで本稿では,質問応答,機械翻訳,電子メール書き込みなどのタスクをカバーする,包括的なベンチマークであるrefutebenchを提案する。 評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。 我々は多数のllmの評価を行い、llmが頑固であること、すなわち内部知識への傾きを示し、しばしばユーザーからのフィードバックに従わないことを発見した。 さらに、会話の長さが増加するにつれて、モデルがユーザの指定したフィードバックを徐々に忘れ、自身の応答にロールバックする。 さらに,モデルのフィードバック応答性を高めるためのシンプルかつ効果的な方法として,リコール・アンド・リピートプロンプトを提案する。

The application scope of large language models (LLMs) is increasingly expanding. In practical use, users might provide feedback based on the model's output, hoping for a responsive model that can complete responses according to their feedback. Whether the model can appropriately respond to users' refuting feedback and consistently follow through with execution has not been thoroughly analyzed. In light of this, this paper proposes a comprehensive benchmark, RefuteBench, covering tasks such as question answering, machine translation, and email writing. The evaluation aims to assess whether models can positively accept feedback in form of refuting instructions and whether they can consistently adhere to user demands throughout the conversation. We conduct evaluations on numerous LLMs and find that LLMs are stubborn, i.e. exhibit inclination to their internal knowledge, often failing to comply with user feedback. Additionally, as the length of the conversation increases, models gradually forget the user's stated feedback and roll back to their own responses. We further propose a recall-and-repeat prompts as a simple and effective way to enhance the model's responsiveness to feedback.
翻訳日:2024-02-22 17:34:07 公開日:2024-02-21
# 社会的嫌悪に対するモデル編集の可能性と課題

Potential and Challenges of Model Editing for Social Debiasing ( http://arxiv.org/abs/2402.13462v1 )

ライセンス: Link先を確認
Jianhao Yan, Futing Wang, Yafu Li, Yue Zhang(参考訳) 巨大なコーパスで訓練された大言語モデル(LLM)は避けられないステレオタイプバイアスに悩まされる。 これらのバイアスを微調整で緩和することは、コストもデータもかかる。 ポストホックな方法でLLMを変更することに焦点を当てたモデル編集手法は、デバイアスに対処する大きな可能性を秘めている。 しかし、内部モデルと外部モデルの両方の編集方法を容易にし、様々なバイアスタイプをサポートし、立体的デバイアスに編集方法を適用することの長所と短所を理解する包括的な研究が欠けている。 このギャップを緩和するために,ソーシャルデバイアスを編集問題に慎重に定式化し,既存の7つのモデル編集アルゴリズムをステレオタイプデバイアス,すなわちデバイアス編集にベンチマークする。 1)既存のモデル編集手法は知識を効果的に保存しバイアスを軽減することができ、一方,編集文から意味論的に等価な文へのデバイアス効果の一般化は限られている。 2) SERAC (Mitchell et al. 2022b) の堅牢性を強調し, 内部編集手法は編集回数に応じて劣化する。 3)モデル編集アルゴリズムは,同一タイプ内および異なるタイプからの未認識バイアスに対する一般化を実現する。 これらの結果を踏まえ,デビアス編集を改善するための2つの簡易かつ効果的な方法を提案し,提案手法の有効性を実験的に示した。

Large language models (LLMs) trained on vast corpora suffer from inevitable stereotype biases. Mitigating these biases with fine-tuning could be both costly and data-hungry. Model editing methods, which focus on modifying LLMs in a post-hoc manner, are of great potential to address debiasing. However, it lacks a comprehensive study that facilitates both internal and external model editing methods, supports various bias types, as well as understands the pros and cons of applying editing methods to stereotypical debiasing. To mitigate this gap, we carefully formulate social debiasing into an editing problem and benchmark seven existing model editing algorithms on stereotypical debiasing, i.e., debias editing. Our findings in three scenarios reveal both the potential and challenges of debias editing: (1) Existing model editing methods can effectively preserve knowledge and mitigate biases, while the generalization of debias effect from edited sentences to semantically equivalent sentences is limited.(2) Sequential editing highlights the robustness of SERAC (Mitchell et al. 2022b), while internal editing methods degenerate with the number of edits. (3) Model editing algorithms achieve generalization towards unseen biases both within the same type and from different types. In light of these findings, we further propose two simple but effective methods to improve debias editing, and experimentally show the effectiveness of the proposed methods.
翻訳日:2024-02-22 17:33:48 公開日:2024-02-21
# 命令チューニング中に大きな言語モデルに毒を盛る学習

Learning to Poison Large Language Models During Instruction Tuning ( http://arxiv.org/abs/2402.13459v1 )

ライセンス: Link先を確認
Yao Qiang and Xiangyu Zhou and Saleh Zare Zade and Mohammad Amin Roshani and Douglas Zytko and Dongxiao Zhu(参考訳) 大規模言語モデル(llms)の出現は、言語処理と推論能力において大きな成果をもたらした。 それらの進歩にもかかわらず、LSMはデータ中毒攻撃の脆弱性に直面し、敵は悪意のある目的のために出力を操作するためのトレーニングデータにバックドアトリガーを挿入する。 この研究は、命令チューニングプロセスを利用するのに適した、新たなデータ中毒攻撃を設計することで、LSMのさらなるセキュリティリスクをさらに特定する。 そこで本研究では,逆行性トリガーを効率的に同定し,コンテントの完全性を維持しつつ従来の防御による検出を回避できる新しい勾配誘導バックドアトリガー学習手法を提案する。 様々なllmおよびタスクにわたる実験的検証を通じて、本戦略はモデル出力の妥協において高い成功率を示し、4000の命令チューニングサンプルのうち1\%しか毒殺せず、パフォーマンス低下率(pdr)は約80\%である。 我々の研究は、データ中毒攻撃に対する強力な防御の必要性を強調し、これらの高度な攻撃に対するLLMの保護に関する洞察を提供する。 ソースコードはGitHubリポジトリにある。 https://github.com/RookieZxy/GBTL/blob/main/README.md。

The advent of Large Language Models (LLMs) has marked significant achievements in language processing and reasoning capabilities. Despite their advancements, LLMs face vulnerabilities to data poisoning attacks, where adversaries insert backdoor triggers into training data to manipulate outputs for malicious purposes. This work further identifies additional security risks in LLMs by designing a new data poisoning attack tailored to exploit the instruction tuning process. We propose a novel gradient-guided backdoor trigger learning approach to identify adversarial triggers efficiently, ensuring an evasion of detection by conventional defenses while maintaining content integrity. Through experimental validation across various LLMs and tasks, our strategy demonstrates a high success rate in compromising model outputs; poisoning only 1\% of 4,000 instruction tuning samples leads to a Performance Drop Rate (PDR) of around 80\%. Our work highlights the need for stronger defenses against data poisoning attack, offering insights into safeguarding LLMs against these more sophisticated attacks. The source code can be found on this GitHub repository: https://github.com/RookieZxy/GBTL/blob/main/README.md.
翻訳日:2024-02-22 17:33:24 公開日:2024-02-21
# LLMジェイルブレイク攻撃と防衛技術 -- 総合的研究

LLM Jailbreak Attack versus Defense Techniques -- A Comprehensive Study ( http://arxiv.org/abs/2402.13457v1 )

ライセンス: Link先を確認
Zihao Xu, Yi Liu, Gelei Deng, Yuekang Li, Stjepan Picek(参考訳) 大規模言語モデル(LLMS)は、社会的影響のあるコンテンツを生み出す中心となってきています。 特に、これらのモデルは有害と考えられるコンテンツを生成する能力を示している。 これらのリスクを軽減するため、研究者はモデル出力を社会的価値と整合させ、悪意のあるコンテンツの生成を抑制する安全訓練手法を採用した。 しかし、モデルからの有害な反応を慎重に促す「ジェイルブレイク」という現象は、重要な課題として残っている。 本研究は, 脱獄型LDMとその防御技術に関する既存の研究を包括的に分析する。 Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法を慎重に検討した。 我々は,これらの攻撃・防御手法の有効性を評価することを目的とする。 以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。 この研究は、LLMのセキュリティ面に集中する必要性を強調している。 さらに私たちは,llmセキュリティに関するさらなる調査を促進すべく,データセットとテスティングフレームワークをリリースして,この分野に貢献しています。 これらの貢献は、このドメイン内のセキュリティ対策の探求を促進するだろうと考えています。

Large Language Models (LLMS) have increasingly become central to generating content with potential societal impacts. Notably, these models have demonstrated capabilities for generating content that could be deemed harmful. To mitigate these risks, researchers have adopted safety training techniques to align model outputs with societal values to curb the generation of malicious content. However, the phenomenon of "jailbreaking", where carefully crafted prompts elicit harmful responses from models, persists as a significant challenge. This research conducts a comprehensive analysis of existing studies on jailbreaking LLMs and their defense techniques. We meticulously investigate nine attack techniques and seven defense techniques applied across three distinct language models: Vicuna, LLama, and GPT-3.5 Turbo. We aim to evaluate the effectiveness of these attack and defense techniques. Our findings reveal that existing white-box attacks underperform compared to universal techniques and that including special tokens in the input significantly affects the likelihood of successful attacks. This research highlights the need to concentrate on the security facets of LLMs. Additionally, we contribute to the field by releasing our datasets and testing framework, aiming to foster further research into LLM security. We believe these contributions will facilitate the exploration of security measures within this domain.
翻訳日:2024-02-22 17:33:04 公開日:2024-02-21
# ターゲットデータサブセット選択のためのサブモジュール情報対策の理論解析

Theoretical Analysis of Submodular Information Measures for Targeted Data Subset Selection ( http://arxiv.org/abs/2402.13454v1 )

ライセンス: Link先を確認
Nathan Beck, Truong Pham, Rishabh Iyer(参考訳) 機械学習タスク間で使用されるデータの量が増えるにつれて、データの特定のサブセットをターゲットにする能力がより重要になる。 この機能を実現するために、最近提案されたsubmodular Mutual Information (SMI) は、文献の様々なタスクに効果的に適用され、典型的なクエリセットの助けを借りてターゲットサブセットの選択を行う。 しかし、これらすべての研究は、サブセットの関連性や対象データのカバレッジに対する感度の観点から、SMIの理論的保証を提供するには不十分である。 対象データの関連性やカバレッジに関連する量に関する類似性に基づく境界を導出することで,このような保証を初めて提供する。 これらの境界により、複数のアプリケーションで経験的に成功したSMI関数は、理論的には、クエリ関連性およびクエリカバレッジが良好であることを示す。

With increasing volume of data being used across machine learning tasks, the capability to target specific subsets of data becomes more important. To aid in this capability, the recently proposed Submodular Mutual Information (SMI) has been effectively applied across numerous tasks in literature to perform targeted subset selection with the aid of a exemplar query set. However, all such works are deficient in providing theoretical guarantees for SMI in terms of its sensitivity to a subset's relevance and coverage of the targeted data. For the first time, we provide such guarantees by deriving similarity-based bounds on quantities related to relevance and coverage of the targeted data. With these bounds, we show that the SMI functions, which have empirically shown success in multiple applications, are theoretically sound in achieving good query relevance and query coverage.
翻訳日:2024-02-22 17:32:47 公開日:2024-02-21
# LocalTweets to LocalHealth:Twitterのデータに基づくメンタルヘルス監視フレームワーク

LocalTweets to LocalHealth: A Mental Health Surveillance Framework Based on Twitter Data ( http://arxiv.org/abs/2402.13452v1 )

ライセンス: Link先を確認
Vijeta Deshpande, Minhwa Lee, Zonghai Yao, Zihao Zhang, Jason Brian Gibbons, Hong Yu(参考訳) twitter(現在のx)のデータに関する以前の研究は、補足的な健康監視システムの開発にその有用性を示す証拠を提供している。 本研究では,精神保健(MH)の結果に着目し,公衆衛生を調査するための新たな枠組みを提案する。 ローカルに投稿されたツイートは、ローカルmhの結果を示すものと仮定し、米国の765地区(census block group)から投稿されたツイートを収集する。 これらのツイートとCDC(Center for Disease Control)が報告したMH結果とを組み合わせ、ベンチマークデータセットであるLocalTweetsを作成します。 LocalTweetsでは、TwitterベースのMH監視システムにおいて、初めて人口レベルの評価タスクを提示する。 そこで我々は、LocalTweetsに基づくMH結果を予測するための効率的で効果的なLocalHealth法を開発した。 GPT3.5で使用する場合、LocalHealthは最高F1スコアと精度が0.7429と79.78\%に達し、GPT3.5よりも59.8%改善されている。 また,cdcの推定値を推定して未報告地域をプロキシし,0.7291のf1スコアを達成している。 我々の研究は、Twitterのデータを効果的に活用して近隣のMH結果をシミュレートできることを示唆している。

Prior research on Twitter (now X) data has provided positive evidence of its utility in developing supplementary health surveillance systems. In this study, we present a new framework to surveil public health, focusing on mental health (MH) outcomes. We hypothesize that locally posted tweets are indicative of local MH outcomes and collect tweets posted from 765 neighborhoods (census block groups) in the USA. We pair these tweets from each neighborhood with the corresponding MH outcome reported by the Center for Disease Control (CDC) to create a benchmark dataset, LocalTweets. With LocalTweets, we present the first population-level evaluation task for Twitter-based MH surveillance systems. We then develop an efficient and effective method, LocalHealth, for predicting MH outcomes based on LocalTweets. When used with GPT3.5, LocalHealth achieves the highest F1-score and accuracy of 0.7429 and 79.78\%, respectively, a 59\% improvement in F1-score over the GPT3.5 in zero-shot setting. We also utilize LocalHealth to extrapolate CDC's estimates to proxy unreported neighborhoods, achieving an F1-score of 0.7291. Our work suggests that Twitter data can be effectively leveraged to simulate neighborhood-level MH outcomes.
翻訳日:2024-02-22 17:32:32 公開日:2024-02-21
# camelot: トレーニングフリーな統合連想メモリを備えた大規模言語モデルに向けて

CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory ( http://arxiv.org/abs/2402.13449v1 )

ライセンス: Link先を確認
Zexue He, Leonid Karlinsky, Donghyun Kim, Julian McAuley, Dmitry Krotov, Rogerio Feris(参考訳) 大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。 メモリ拡張モデルがこの問題の有望な解決策として登場したが、現在のメソッドはメモリ容量の制限によって妨げられ、新しいLLMとの統合にはコストがかかる。 本研究では,事前学習された注意に基づくllmと再トレーニングすることなく結合可能な連想メモリモジュールを導入し,任意に長い入力シーケンスを処理できるようにする。 従来の手法とは異なり,アソシエーションメモリモジュールは個々のトークンの表現を非パラメトリック分布モデルに統合し,受信データの新しさと頻度を適切にバランスさせることで動的に管理する。 この統合された連想メモリから情報を取得することで、標準ベンチマークで評価された他のベースラインと比較して、LLMは長いコンテキストモデリングにおいて重要な(Arxivで最大29.7%)パープレキシティの低下を達成できる。 CAMELoT (Consolidated Associative Memory Enhanced Long Transformer) と呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウインドウでも優れた性能を示し、さらにより大きなデモセットでコンテキスト内学習を改善することができる。

Large Language Models (LLMs) struggle to handle long input sequences due to high memory and runtime costs. Memory-augmented models have emerged as a promising solution to this problem, but current methods are hindered by limited memory capacity and require costly re-training to integrate with a new LLM. In this work, we introduce an associative memory module which can be coupled to any pre-trained (frozen) attention-based LLM without re-training, enabling it to handle arbitrarily long input sequences. Unlike previous methods, our associative memory module consolidates representations of individual tokens into a non-parametric distribution model, dynamically managed by properly balancing the novelty and recency of the incoming data. By retrieving information from this consolidated associative memory, the base LLM can achieve significant (up to 29.7% on Arxiv) perplexity reduction in long-context modeling compared to other baselines evaluated on standard benchmarks. This architecture, which we call CAMELoT (Consolidated Associative Memory Enhanced Long Transformer), demonstrates superior performance even with a tiny context window of 128 tokens, and also enables improved in-context learning with a much larger set of demonstrations.
翻訳日:2024-02-22 17:32:09 公開日:2024-02-21
# ED-Copilot:言語モデル診断支援による救急部門待ち時間削減

ED-Copilot: Reduce Emergency Department Wait Time with Language Model Diagnostic Assistance ( http://arxiv.org/abs/2402.13448v1 )

ライセンス: Link先を確認
Liwen Sun, Abhineet Agarwal, Aaron Kornblith, Bin Yu, Chenyan Xiong(参考訳) 救急部(ED)では、診断前にトリアージと複数回の検査を行った。 このプロセスは時間がかかり、EDの混雑が患者の死亡率、医療ミス、スタッフの燃え尽きなどに大きな影響を与えます。 本研究は,人工知能(ai)システムの可能性を探究し,ed臨床医の時間効率と正確な診断を支援する,(時間)コスト効率の高い診断支援を提案する。 MIMIC-ED-Assistは、ED待ち時間を最小限に抑えながら、死などの致命的な結果を正確に予測しながら、AIシステムがED待ち時間を最小限に抑える能力を測定するベンチマークである。 我々は,患者固有の検査を逐次提案し,診断予測を行うED-Copilotを開発した。 ED-Copilotは、事前訓練されたバイオメディカル言語モデルを使用して、患者情報と強化学習を符号化し、ED待ち時間を最小化し、臨界結果の予測精度を最大化する。 MIMIC-ED-Assistでは、ED-Copilotは平均待ち時間を4時間から2時間に半減しながらベースラインの予測精度を向上させる。 アブレーション研究は、モデルスケールとバイオメディカル言語モデルの使用の重要性を示している。 さらに, 重症症例の診断には個別の検査提案が必要であること, ED-Copilotが臨床医にインフォメーションな検査勧告を提供する可能性も明らかにされている。 私たちのコードはhttps://github.com/cxcscmu/ed-copilotで利用可能です。

In the emergency department (ED), patients undergo triage and multiple laboratory tests before diagnosis. This process is time-consuming, and causes ED crowding which significantly impacts patient mortality, medical errors, staff burnout, etc. This work proposes (time) cost-effective diagnostic assistance that explores the potential of artificial intelligence (AI) systems in assisting ED clinicians to make time-efficient and accurate diagnoses. Using publicly available patient data, we collaborate with ED clinicians to curate MIMIC-ED-Assist, a benchmark that measures the ability of AI systems in suggesting laboratory tests that minimize ED wait times, while correctly predicting critical outcomes such as death. We develop ED-Copilot which sequentially suggests patient-specific laboratory tests and makes diagnostic predictions. ED-Copilot uses a pre-trained bio-medical language model to encode patient information and reinforcement learning to minimize ED wait time and maximize prediction accuracy of critical outcomes. On MIMIC-ED-Assist, ED-Copilot improves prediction accuracy over baselines while halving average wait time from four hours to two hours. Ablation studies demonstrate the importance of model scale and use of a bio-medical language model. Further analyses reveal the necessity of personalized laboratory test suggestions for diagnosing patients with severe cases, as well as the potential of ED-Copilot in providing ED clinicians with informative laboratory test recommendations. Our code is available at https://github.com/cxcscmu/ED-Copilot.
翻訳日:2024-02-22 17:31:48 公開日:2024-02-21
# データアノテーションのための大規模言語モデル:調査

Large Language Models for Data Annotation: A Survey ( http://arxiv.org/abs/2402.13446v1 )

ライセンス: Link先を確認
Zhen Tan, Alimohammad Beigi, Song Wang, Ruocheng Guo, Amrita Bhattacharjee, Bohan Jiang, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu(参考訳) データアノテーションは、関連する情報を含む生データのラベル付けやタグ付けであり、機械学習モデルの有効性向上に不可欠である。 しかし、プロセスは労働集約的で高価である。 gpt-4で例示される先進的大規模言語モデル(llm)の出現は、データアノテーションの複雑なプロセスに革命を起こし、自動化する前例のない機会をもたらす。 既存の調査では、llmアーキテクチャ、トレーニング、一般的なアプリケーションについて広く取り上げているが、本論文は、データアノテーションの特定のユーティリティに特化している。 LLMベースのデータアノテーション、LLM生成アノテーションの評価、LLM生成アノテーションによる学習である。 さらに、データアノテーションにLLMを用いた方法論の詳細な分類、LLM生成アノテーションを取り入れたモデルの学習戦略の包括的なレビュー、データアノテーションにLLMを使用する際の主な課題と限界に関する詳細な議論を含む。 この調査は、データアノテーションのための最新のLSMの可能性を探究する研究者や実践者に対して、この重要な領域における今後の進歩を促すことを目的としている。 包括的な論文リストは \url{https://github.com/zhen-tan-dmml/llm4annotation.git} にある。

Data annotation is the labeling or tagging of raw data with relevant information, essential for improving the efficacy of machine learning models. The process, however, is labor-intensive and expensive. The emergence of advanced Large Language Models (LLMs), exemplified by GPT-4, presents an unprecedented opportunity to revolutionize and automate the intricate process of data annotation. While existing surveys have extensively covered LLM architecture, training, and general applications, this paper uniquely focuses on their specific utility for data annotation. This survey contributes to three core aspects: LLM-Based Data Annotation, Assessing LLM-generated Annotations, and Learning with LLM-generated annotations. Furthermore, the paper includes an in-depth taxonomy of methodologies employing LLMs for data annotation, a comprehensive review of learning strategies for models incorporating LLM-generated annotations, and a detailed discussion on primary challenges and limitations associated with using LLMs for data annotation. As a key guide, this survey aims to direct researchers and practitioners in exploring the potential of the latest LLMs for data annotation, fostering future advancements in this critical domain. We provide a comprehensive papers list at \url{https://github.com/Zhen-Tan-dmml/LLM4Annotation.git}.
翻訳日:2024-02-22 17:31:23 公開日:2024-02-21
# packd:メモリアクセス予測モデル圧縮のためのパターンクラスタ知識蒸留

PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory Access Prediction Models ( http://arxiv.org/abs/2402.13441v1 )

ライセンス: Link先を確認
Neelesh Gupta, Pengmiao Zhang, Rajgopal Kannan and Viktor Prasanna(参考訳) ディープニューラルネットワーク(DNN)は、データのプリフェッチによるメモリ遅延を軽減する重要なタスクである、正確なメモリアクセス予測(MAP)のための効果的なモデルであることが証明されている。 しかし、既存のDNNベースのMAPモデルは、大きな物理ストレージスペースや推論遅延の低さといった課題に悩まされている。 これらの制限は、現実のシナリオで展開するには実用的でない。 本稿では,予測性能を維持しつつ地図モデルを圧縮するパターンクラスタ型知識蒸留手法packdを提案する。 PaCKDアプローチでは、メモリアクセスシーケンスを同様のパターンを含む個別のパーティションにクラスタリングし、パーティション毎に大きなパターン固有の教師モデルをトレーニングし、トレーニングされたパターン固有の教師から知識を抽出して、シングル軽量の学生モデルをトレーニングする。 我々は、lstm、mlp-mixer、resnetモデルに対するアプローチを評価し、様々な構造を示し、4つの広く使われているグラフアプリケーションでの有効性をテストするために、画像分類タスクに広く使われている。 教師モデルの5.406MパラメータとF1スコアの0.4626と比較すると、F1スコアの0.4538(性能低下1.92%)を維持しながら、学生モデルは52$\times$モデルサイズ圧縮を達成した。 本手法は,標準知識蒸留法で訓練した学生モデルと比較して8.70%,無蒸留法で訓練した学生モデルより8.88%高い結果が得られる。

Deep neural networks (DNNs) have proven to be effective models for accurate Memory Access Prediction (MAP), a critical task in mitigating memory latency through data prefetching. However, existing DNN-based MAP models suffer from the challenges such as significant physical storage space and poor inference latency, primarily due to their large number of parameters. These limitations render them impractical for deployment in real-world scenarios. In this paper, we propose PaCKD, a Pattern-Clustered Knowledge Distillation approach to compress MAP models while maintaining the prediction performance. The PaCKD approach encompasses three steps: clustering memory access sequences into distinct partitions involving similar patterns, training large pattern-specific teacher models for memory access prediction for each partition, and training a single lightweight student model by distilling the knowledge from the trained pattern-specific teachers. We evaluate our approach on LSTM, MLP-Mixer, and ResNet models, as they exhibit diverse structures and are widely used for image classification tasks in order to test their effectiveness in four widely used graph applications. Compared to the teacher models with 5.406M parameters and an F1-score of 0.4626, our student models achieve a 552$\times$ model size compression while maintaining an F1-score of 0.4538 (with a 1.92% performance drop). Our approach yields an 8.70% higher result compared to student models trained with standard knowledge distillation and an 8.88% higher result compared to student models trained without any form of knowledge distillation.
翻訳日:2024-02-22 17:30:59 公開日:2024-02-21
# 解釈性と確率的決定のためのマルチエージェントRLへのニューロシンボリックアプローチ

A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and Probabilistic Decision Making ( http://arxiv.org/abs/2402.13440v1 )

ライセンス: Link先を確認
Chitra Subramanian and Miao Liu and Naweed Khan and Jonathan Lenchner and Aporva Amarnath and Sarathkrishna Swaminathan and Ryan Riegel and Alexander Gray(参考訳) マルチエージェント強化学習(MARL)は、複数のエージェントが共存し、共有リソースと競合するシステムのパフォーマンスを最適化する実行時決定に適している。 しかしながら、現実世界の問題に一般的なディープラーニングベースのmarlソリューションを適用すると、解釈可能性、サンプル効率、部分的可観測性などの問題が発生する。 そこで本研究では,神経シンボリック手法を用いて意思決定を分散したmarlエージェントによって処理するイベント駆動定式化手法を提案する。 最近導入されたLNN(Neuro-symbolic Logical Neural Networks)フレームワークは、RLの関数近似として機能し、建設によって論理的かつ解釈可能なルールベースのポリシーをトレーニングする。 本研究では,不確実性と部分的可観測性を考慮した意思決定を可能にするために,論理的推論能力と確率的グラフィカルモデルを組み合わせた新しい確率論的論理的ニューラルネットワーク(PLNN)を開発した。 PLNNでは、LNNから受け継いだ上向き/下向きの推論戦略を、各ニューラルネットワークノードに関連する論理演算子の活性化関数をFr\echet不等式の確率参照一般化に設定することにより、信念境界と結合する。 これらのPLNNノードは確率論理とベイズネットを組み合わせた統一要素を形成し、変数と観測されていない状態の推論を可能にする。 我々は,システム・オン・チップ・アプリケーションにおける電力共有におけるmarlの重要な課題を解決することで,我々の貢献を実証する。

Multi-agent reinforcement learning (MARL) is well-suited for runtime decision-making in optimizing the performance of systems where multiple agents coexist and compete for shared resources. However, applying common deep learning-based MARL solutions to real-world problems suffers from issues of interpretability, sample efficiency, partial observability, etc. To address these challenges, we present an event-driven formulation, where decision-making is handled by distributed co-operative MARL agents using neuro-symbolic methods. The recently introduced neuro-symbolic Logical Neural Networks (LNN) framework serves as a function approximator for the RL, to train a rules-based policy that is both logical and interpretable by construction. To enable decision-making under uncertainty and partial observability, we developed a novel probabilistic neuro-symbolic framework, Probabilistic Logical Neural Networks (PLNN), which combines the capabilities of logical reasoning with probabilistic graphical models. In PLNN, the upward/downward inference strategy, inherited from LNN, is coupled with belief bounds by setting the activation function for the logical operator associated with each neural network node to a probability-respecting generalization of the Fr\'echet inequalities. These PLNN nodes form the unifying element that combines probabilistic logic and Bayes Nets, permitting inference for variables with unobserved states. We demonstrate our contributions by addressing key MARL challenges for power sharing in a system-on-chip application.
翻訳日:2024-02-22 17:30:31 公開日:2024-02-21
# prosparse: 大規模言語モデルにおける内在的アクティベーションスパーシティの導入と拡張

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models ( http://arxiv.org/abs/2402.13516v1 )

ライセンス: Link先を確認
Chenyang Song, Xu Han, Zhengyan Zhang, Shengding Hu, Xiyu Shi, Kuai Li, Chen Chen, Zhiyuan Liu, Guangli Li, Tao Yang, Maosong Sun(参考訳) アクティベーションスパーシティは、アクティベーションアウトプットの間にかなりの弱結合要素が存在することを意味する。 ReLUアクティベーション関数を用いたモデルの一般的な特性として、モデル推論効率を高めるための有望なパラダイムであることが証明されている。 それにもかかわらず、ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能(GELUやSwishなど)を採用している。 最近の研究では、LLMが活性化空間と推論加速度を達成するのに役立つ代替活性化関数としてReLUやその変種を導入することを検討しているが、高い間隔と同等のモデル性能を同時に得られるものはほとんどない。 本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース方式を提案する。 具体的には、LLMの活性化関数をReLUで置換した後、ProSparseは複数の段階において正弦曲線に沿って滑らかに増加する因子で進行性スパーシティ正則化を採用する。 これにより、アクティベーション分布の急変を避けることにより、アクティベーションスパーシティを高め、パフォーマンス低下を軽減することができる。 ProSparse では LLaMA2-7B と LLaMA2-13B に対して 89.32% と 88.80% の高間隔が得られる。 さらに, 高い活性化スパース性によってもたらされる実用的加速を推算加速度実験により実証した。

Activation sparsity refers to the existence of considerable weakly-contributed elements among activation outputs. As a prevalent property of the models using the ReLU activation function, it has been proven a promising paradigm to boost model inference efficiency. Nevertheless, most large language models (LLMs) adopt activation functions without intrinsic activation sparsity (e.g., GELU and Swish). Some recent efforts have explored introducing ReLU or its variants as the substitutive activation function to help LLMs achieve activation sparsity and inference acceleration, but few can simultaneously obtain high sparsity and comparable model performance. This paper introduces an effective sparsification method named "ProSparse" to push LLMs for higher activation sparsity without decreasing model performance. Specifically, after substituting the activation function of LLMs with ReLU, ProSparse adopts progressive sparsity regularization with a factor smoothly increasing along sine curves in multiple stages. This can enhance activation sparsity and alleviate performance degradation by avoiding radical shifts in activation distribution. With ProSparse, we obtain high sparsity of 89.32% and 88.80% for LLaMA2-7B and LLaMA2-13B, respectively, achieving comparable performance to their original Swish-activated versions. Our inference acceleration experiments further demonstrate the practical acceleration brought by higher activation sparsity.
翻訳日:2024-02-22 17:24:58 公開日:2024-02-21
# the lay person's guide to biomedicine: orchestraing large language models

The Lay Person's Guide to Biomedicine: Orchestrating Large Language Models ( http://arxiv.org/abs/2402.13498v1 )

ライセンス: Link先を確認
Zheheng Luo, Qianqian Xie, Sophia Ananiadou(参考訳) automated lay summarisation (ls) は、複雑な技術文書を非専門家にとってよりアクセスしやすい形式にすることを目的としている。 既存の訓練済み言語モデルを用いたアプローチは、おそらく外部の背景知識で強化され、効果的な単純化と説明に苦慮する傾向にある。 さらに,生成した要約の‘レイネス’を効果的に評価する自動化手法が不足している。 近年,大規模言語モデル (LLM) は, テキストの単純化, 背景情報生成, テキスト評価において顕著な能力を示した。 このことから, LLM を用いたバイオメディカル物品の要約生成と評価を体系的に行うことの動機となった。 本稿では,LLMを利用して高品質なバックグラウンド知識を生成し,教師付きLSを改善する新しいLSフレームワークを提案する。 また、ゼロショットLSにおけるLCMの性能評価を行い、複数の視点からレイネスを評価する2つの新しいLS評価指標を提案する。 最後に,生成した要約を人間による評価を行う。 llm生成の背景情報により教師付きlsの改善が期待できることを示す。 さらに,提案するゼロショットls評価指標は,人間の嗜好と高い一致度を示す。 LLMはLS法の性能と評価を両立させる上で重要な役割を担っていると結論付けている。

Automated lay summarisation (LS) aims to simplify complex technical documents into a more accessible format to non-experts. Existing approaches using pre-trained language models, possibly augmented with external background knowledge, tend to struggle with effective simplification and explanation. Moreover, automated methods that can effectively assess the `layness' of generated summaries are lacking. Recently, large language models (LLMs) have demonstrated a remarkable capacity for text simplification, background information generation, and text evaluation. This has motivated our systematic exploration into using LLMs to generate and evaluate lay summaries of biomedical articles. We propose a novel \textit{Explain-then-Summarise} LS framework, which leverages LLMs to generate high-quality background knowledge to improve supervised LS. We also evaluate the performance of LLMs for zero-shot LS and propose two novel LLM-based LS evaluation metrics, which assess layness from multiple perspectives. Finally, we conduct a human assessment of generated lay summaries. Our experiments reveal that LLM-generated background information can support improved supervised LS. Furthermore, our novel zero-shot LS evaluation metric demonstrates a high degree of alignment with human preferences. We conclude that LLMs have an important part to play in improving both the performance and evaluation of LS methods.
翻訳日:2024-02-22 17:24:29 公開日:2024-02-21
# 一貫性規則化による完全精度演奏のためのプッシュ量子化アウェアトレーニング

Push Quantization-Aware Training Toward Full Precision Performances via Consistency Regularization ( http://arxiv.org/abs/2402.13497v1 )

ライセンス: Link先を確認
Junbiao Pang, Tianyang Cai, Baochang Zhang, Jiaqi Wu and Ye Tao(参考訳) 既存の量子化アウェアトレーニング(qat)手法は完全なラベル付きデータセットや知識蒸留に依存しており、完全な精度(fp)アキュラティエンスに対するパフォーマンスを保証する。 しかし, 実証実験の結果, QAT は FP と比較すると依然として劣っていることがわかった。 1つの疑問は、QATをFPパフォーマンスに向かわせるか、さらに超えるかだ。 本稿では,QATの一般化性能を効果的に向上するために,ビジナルデータ配信情報を注入することにより,新たな視点からこの問題に対処する。 本稿では,QATのための一貫性規則化(CR)を導入する,シンプルで斬新だが強力な手法を提案する。 具体的には、CRは拡張サンプルが潜在特徴空間で一貫性を持つべきであると仮定する。 本手法は,異なるネットワークアーキテクチャと様々なQAT手法によく適応する。 大規模な実験により,本手法は現状のQAT法やFP法よりも優れていることが示された。

Existing Quantization-Aware Training (QAT) methods intensively depend on the complete labeled dataset or knowledge distillation to guarantee the performances toward Full Precision (FP) accuracies. However, empirical results show that QAT still has inferior results compared to its FP counterpart. One question is how to push QAT toward or even surpass FP performances. In this paper, we address this issue from a new perspective by injecting the vicinal data distribution information to improve the generalization performances of QAT effectively. We present a simple, novel, yet powerful method introducing an Consistency Regularization (CR) for QAT. Concretely, CR assumes that augmented samples should be consistent in the latent feature space. Our method generalizes well to different network architectures and various QAT methods. Extensive experiments demonstrate that our approach significantly outperforms the current state-of-the-art QAT methods and even FP counterparts.
翻訳日:2024-02-22 17:24:08 公開日:2024-02-21
# HetTree: 異種木グラフニューラルネットワーク

HetTree: Heterogeneous Tree Graph Neural Network ( http://arxiv.org/abs/2402.13496v1 )

ライセンス: Link先を確認
Mingyu Guan, Jack W. Stokes, Qinlong Luo, Fuchen Liu, Purvanshi Mehta, Elnaz Nouri, Taesoo Kim(参考訳) 近年では、引用グラフから電子メールグラフまで、多くの実世界のグラフが本質的に異質であるため、異種グラフニューラルネットワーク(HGNN)への関心が高まっている。 しかし、既存のメソッドは、異なるノードタイプと関係型によって自然に構成されるメタパス間のツリー階層を無視している。 本稿では,グラフ構造とヘテロジニアス面の両方をスケーラブルかつ効果的にモデル化する,新しい異種木グラフニューラルネットワークhettreeを提案する。 具体的には、HetTreeはメタパス間の階層をキャプチャするセマンティックツリーデータ構造を構築している。 既存のツリーエンコーディング技術は,親ノードとの類似性に基づいて子ノードの寄与度を重み付けて子ノードを集約する。 しかし、この木エンコーディングは親ノードのみを考慮して親子階層全体をキャプチャできないことが判明した。 したがって、HetTreeは、親子関係をコードするのに役立つメタパスを強調するために、新しいサブツリーアテンションメカニズムを使用する。 さらに、HetTreeでは、ラベル学習から特徴学習を分離したり、同じ潜在空間に投影することで、機能やラベルを平等に扱う代わりに、対応するメタパスに基づいて、より正確でリッチな情報を提供するよう提案している。 さまざまな実世界のデータセットに対するHetTreeの評価は、オープンベンチマークで既存のベースラインをすべて上回り、数百万のノードとエッジを持つ大規模な実世界のグラフに効率的にスケールできることを示しています。

The recent past has seen an increasing interest in Heterogeneous Graph Neural Networks (HGNNs) since many real-world graphs are heterogeneous in nature, from citation graphs to email graphs. However, existing methods ignore a tree hierarchy among metapaths, which is naturally constituted by different node types and relation types. In this paper, we present HetTree, a novel heterogeneous tree graph neural network that models both the graph structure and heterogeneous aspects in a scalable and effective manner. Specifically, HetTree builds a semantic tree data structure to capture the hierarchy among metapaths. Existing tree encoding techniques aggregate children nodes by weighting the contribution of children nodes based on similarity to the parent node. However, we find that this tree encoding fails to capture the entire parent-children hierarchy by only considering the parent node. Hence, HetTree uses a novel subtree attention mechanism to emphasize metapaths that are more helpful in encoding parent-children relationships. Moreover, instead of separating feature learning from label learning or treating features and labels equally by projecting them to the same latent space, HetTree proposes to match them carefully based on corresponding metapaths, which provides more accurate and richer information between node features and labels. Our evaluation of HetTree on a variety of real-world datasets demonstrates that it outperforms all existing baselines on open benchmarks and efficiently scales to large real-world graphs with millions of nodes and edges.
翻訳日:2024-02-22 17:23:52 公開日:2024-02-21
# 検索は役に立つか、痛むか? 言語モデルにおける検索拡張の有効性についての一考察

Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models ( http://arxiv.org/abs/2402.13492v1 )

ライセンス: Link先を確認
Seiji Maekawa, Hayate Iso, Sairam Gurajada, Nikita Bhutani(参考訳) 大きな言語モデル(LM)は優れた性能を示すが、事前訓練された記憶以上の情報を求めると、正確な応答を提供するという課題に直面する。 外部情報を拡張することでこれらの問題を軽減できるが、検索の必要性を考慮できないと全体的な性能に悪影響を及ぼす可能性がある。 従来の研究では、エンティティがLMの検索モデルや知識リコールにどのように影響するかを主に研究しており、他の側面は比較的未調査のままである。 本研究の目的は,エンティティと関係の組み合わせの効果を検討することによって,より詳細な事実中心の分析を行うことである。 そこで我々は,新しい質問応答データセットであるWiTQA(Wikipedia Triple Question Answers)を構築した。 このデータセットには、さまざまな人気レベルのエンティティと関係に関する質問が含まれている。 多様なlmsとレトリバーを用いた広範な実験により,事実中心の人気の観点から検索が常にlmsを増加させていないことが判明した。 しかし、レトリバーと比較して、少ない実体相関ペアでは困難である。 興味深いことに、あまり一般的でないエンティティの一般的な関係を効果的に維持できる。 本研究は,質問の実体や関係の周波数に基づいて検索とリコールを選択的に活用する適応検索システムを通じて,よりきめ細かい計量と洞察の有効性を実証する。

While large language models (LMs) demonstrate remarkable performance, they encounter challenges in providing accurate responses when queried for information beyond their pre-trained memorization. Although augmenting them with relevant external information can mitigate these issues, failure to consider the necessity of retrieval may adversely affect overall performance. Previous research has primarily focused on examining how entities influence retrieval models and knowledge recall in LMs, leaving other aspects relatively unexplored. In this work, our goal is to offer a more detailed, fact-centric analysis by exploring the effects of combinations of entities and relations. To facilitate this, we construct a new question answering (QA) dataset called WiTQA (Wikipedia Triple Question Answers). This dataset includes questions about entities and relations of various popularity levels, each accompanied by a supporting passage. Our extensive experiments with diverse LMs and retrievers reveal when retrieval does not consistently enhance LMs from the viewpoints of fact-centric popularity.Confirming earlier findings, we observe that larger LMs excel in recalling popular facts. However, they notably encounter difficulty with infrequent entity-relation pairs compared to retrievers. Interestingly, they can effectively retain popular relations of less common entities. We demonstrate the efficacy of our finer-grained metric and insights through an adaptive retrieval system that selectively employs retrieval and recall based on the frequencies of entities and relations in the question.
翻訳日:2024-02-22 17:23:27 公開日:2024-02-21
# テキスト・画像拡散モデルにおける逆プロンプトによる絡み合いの改善

Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2402.13490v1 )

ライセンス: Link先を確認
Chen Wu and Fernando De la Torre(参考訳) テキストから画像への拡散モデルは画像合成において顕著な性能を発揮しているが、テキストインターフェースは必ずしも特定の画像要素に対するきめ細かい制御を提供するわけではない。 例えば、テキスト中の1つのトークンを変更すると、意図しない効果を画像に与えることができる。 本稿では,テキスト対画像モデルの画像要素を分離するのに役立つ分類器フリーガイダンスの簡易な修正について述べる。 本手法の重要な考え方であるコントラスト・ガイダンスは,最小のトークンで異なる2つのプロンプトで意図された因子を特徴付けることである: 正のプロンプトは合成されるイメージを記述し,ベースラインプロンプトは他の要因を異にする「ベースライン」として機能する。 コントラストガイダンス(con contrastive guidance)とは、(1)オブジェクトクラスでトレーニングされたドメイン固有の拡散モデルをガイドする、(2)テキスト対画像生成のための連続的なリグライクな制御を得る、(3)ゼロショット画像エディタの性能を改善する、という3つのシナリオにおける利点を説明する一般的な手法である。

Text-to-image diffusion models have achieved remarkable performance in image synthesis, while the text interface does not always provide fine-grained control over certain image factors. For instance, changing a single token in the text can have unintended effects on the image. This paper shows a simple modification of classifier-free guidance can help disentangle image factors in text-to-image models. The key idea of our method, Contrastive Guidance, is to characterize an intended factor with two prompts that differ in minimal tokens: the positive prompt describes the image to be synthesized, and the baseline prompt serves as a "baseline" that disentangles other factors. Contrastive Guidance is a general method we illustrate whose benefits in three scenarios: (1) to guide domain-specific diffusion models trained on an object class, (2) to gain continuous, rig-like controls for text-to-image generation, and (3) to improve the performance of zero-shot image editors.
翻訳日:2024-02-22 17:23:02 公開日:2024-02-21
# 任意の次元多部量子状態の局所的ユニタリ同値

Local unitary equivalence of arbitrary-dimensional multipartite quantum states ( http://arxiv.org/abs/2402.13489v1 )

ライセンス: Link先を確認
Qing Zhou, Yi-Zheng Zhen, Xin-Yu Xu, Shuai Zhao, Wen-Li Yang, Shao-Ming Fei, Li Li, Nai-Le Liu, Kai Chen(参考訳) 局所ユニタリ同値は、絡み合いを定量化し分類するための重要な成分である。 2つの量子状態が局所ユニタリ同値であるかどうかを検証することは、マルチパーティライト純状態の場合にのみ解決される重要な問題である。 しかし、混合状態の場合、局所ユニタリ同値の検証は依然として難しい問題である。 本稿では、量子状態の一般化ブロッホ表現の係数行列に基づいて、任意の次元の2成分量子状態に対する様々な局所ユニタリ不変量を求める。 これらの不変量は操作可能であり、2つの量子状態の局所的ユニタリ同値を検証するために必要な条件として使用できる。 さらに、この構成を任意の次元多成分の場合にも拡張する。 最終的にこれらの不変量を用いて、重要な絡み合い尺度である収束を推定し、絡み合いを特徴づける局所ユニタリ不変量の実践可能性を示す。

Local unitary equivalence is an important ingredient for quantifying and classifying entanglement. Verifying whether or not two quantum states are local unitary equivalent is a crucial problem, where only the case of multipartite pure states is solved. For mixed states, however, the verification of local unitary equivalence is still a challenging problem. In this paper, based on the coefficient matrices of generalized Bloch representations of quantum states, we find a variety of local unitary invariants for arbitrary-dimensional bipartite quantum states. These invariants are operational and can be used as necessary conditions for verifying the local unitary equivalence of two quantum states. Furthermore, we extend the construction to the arbitrary-dimensional multipartite case. We finally apply these invariants to estimate concurrence, a vital entanglement measure, showing the practicability of local unitary invariants in characterizing entanglement.
翻訳日:2024-02-22 17:22:40 公開日:2024-02-21
# マルチレベルリファインメント戦略に基づく特徴マッチング手法

A Feature Matching Method Based on Multi-Level Refinement Strategy ( http://arxiv.org/abs/2402.13488v1 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Jiaxing Ma, Jinlong Yang, Tao Yan, Liangyi Huang, Mingfeng Wang(参考訳) 機能マッチングはvisual slamの基本的かつ重要なプロセスであり、精度は常に機能マッチングの課題であった。 本稿では,マルチレベルファインマッチング戦略に基づき,ktgp-orbと呼ばれる新しい特徴マッチング手法を提案する。 特徴記述子によって生成されるハミング空間における局所的外観の類似性を利用して初期対応を確立する。 局所像運動の滑らかさの制約を組み合わせ、GMSアルゴリズムを用いて初期一致の精度を向上し、最後に、ユークリッド空間におけるグローバルグレースケール情報に基づく正確なマッチングを達成するために PROSAC アルゴリズムを用いる。 実験により、KTGP-ORB法は、照明のバリエーションと曖昧さのある複雑なシーンにおいて、ORBアルゴリズムと比較して誤差を平均29.92%削減することを示した。

Feature matching is a fundamental and crucial process in visual SLAM, and precision has always been a challenging issue in feature matching. In this paper, based on a multi-level fine matching strategy, we propose a new feature matching method called KTGP-ORB. This method utilizes the similarity of local appearance in the Hamming space generated by feature descriptors to establish initial correspondences. It combines the constraint of local image motion smoothness, uses the GMS algorithm to enhance the accuracy of initial matches, and finally employs the PROSAC algorithm to optimize matches, achieving precise matching based on global grayscale information in Euclidean space. Experimental results demonstrate that the KTGP-ORB method reduces the error by an average of 29.92% compared to the ORB algorithm in complex scenes with illumination variations and blur.
翻訳日:2024-02-22 17:22:21 公開日:2024-02-21
# 確率的マルチアーマッドバンドに対するステルス対立攻撃

Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits ( http://arxiv.org/abs/2402.13487v1 )

ライセンス: Link先を確認
Zhiwei Wang, Huazheng Wang, Hongning Wang(参考訳) 確率的マルチアームバンディット (MAB) アルゴリズムに対する敵対的攻撃は文献で広く研究されている。 本研究では,報酬中毒に対する攻撃に焦点をあて,報奨操作における攻撃性から,同質性検査に基づく検出法により,既存の攻撃のほとんどを容易に検出できることを示す。 このことは、確率的MABに対するステルス攻撃の概念を研究し、その結果の攻撃可能性を調べる動機となっている。 分析の結果、UCB1と$\epsilon$-greedyの2つのMABアルゴリズムに対して、ステルス攻撃の成功は、第1ラウンドで引き出された腕の実際の報酬と環境条件に依存することがわかった。 また,本手法を応用した一般的なmabアルゴリズムの状況を分析し,ほぼ常に成功したステルス攻撃が可能であることを確認した。 これはMABアルゴリズムのセキュリティリスクに対する新たな洞察をもたらす。

Adversarial attacks against stochastic multi-armed bandit (MAB) algorithms have been extensively studied in the literature. In this work, we focus on reward poisoning attacks and find most existing attacks can be easily detected by our proposed detection method based on the test of homogeneity, due to their aggressive nature in reward manipulations. This motivates us to study the notion of stealthy attack against stochastic MABs and investigate the resulting attackability. Our analysis shows that against two popularly employed MAB algorithms, UCB1 and $\epsilon$-greedy, the success of a stealthy attack depends on the environmental conditions and the realized reward of the arm pulled in the first round. We also analyze the situation for general MAB algorithms equipped with our attack detection method and find that it is possible to have a stealthy attack that almost always succeeds. This brings new insights into the security risks of MAB algorithms.
翻訳日:2024-02-22 17:21:57 公開日:2024-02-21
# ProPD: LLM並列デコードのための動的トーケントリープルーニングと生成

ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding ( http://arxiv.org/abs/2402.13485v1 )

ライセンス: Link先を確認
Shuzhang Zhong, Zebin Yang, Meng Li, Ruihao Gong, Runsheng Wang, Ru Huang(参考訳) 生成型大言語モデル(llm)の最近の進歩は、自然言語処理タスクの性能を大幅に向上させた。 しかし、その効率性は自己回帰トークン生成の固有の制限によって阻害される。 トークンツリー検証による並列デコーディング(例えばMedusa)は、デコーディングの並列性と効率を改善するために提案されているが、独立したトークン予測アプローチによるコンテキスト関係の維持に苦慮し、特に大きなツリーサイズとバッチ処理において、かなりの検証オーバーヘッドが発生する。 本稿では,動的トークンツリープルーニングと生成に基づく,効率的なLLM並列デコードフレームワークであるPRDを提案する。 ProPDは、未生成のトークンシーケンスを効率よく排除し、検証効率を向上させる、高度な早期プルーニング機構を備えている。 さらに、動的トークンツリー生成アルゴリズムを導入し、検証フェーズの計算と並列性をリアルタイムでバランスさせ、バッチサイズ、シーケンスの長さ、タスクなどによって全体的な効率を最大化する。 我々は、さまざまなデータセット、LLM、バッチサイズにわたるProPDを検証するとともに、ProPDが既存のデコードアルゴリズムを1.1-3.2xで一貫して上回っていることを示す。

Recent advancements in generative large language models (LLMs) have significantly boosted the performance in natural language processing tasks. However, their efficiency is hampered by the inherent limitations in autoregressive token generation. While parallel decoding with token tree verification, e.g., Medusa, has been proposed to improve decoding parallelism and efficiency, it often struggles with maintaining contextual relationships due to its independent token prediction approach and incurs significant verification overhead, especially with large tree sizes and batch processing. In this paper, we propose ProPD, an efficient LLM parallel decoding framework based on dynamic token tree pruning and generation. ProPD features an advanced early pruning mechanism to efficiently eliminate unpromising token sequences to improve verification efficiency. Additionally, it introduces a dynamic token tree generation algorithm to balance the computation and parallelism of the verification phase in real-time and maximize the overall efficiency across different batch sizes, sequence lengths, and tasks, etc. We verify ProPD across a diverse set of datasets, LLMs, and batch sizes and demonstrate ProPD consistently outperforms existing decoding algorithms by 1.1-3.2x.
翻訳日:2024-02-22 17:21:30 公開日:2024-02-21
# 低リソース領域タスクのための検索データ拡張

Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks ( http://arxiv.org/abs/2402.13482v1 )

ライセンス: Link先を確認
Minju Seo, Jinheon Baek, James Thorne, Sung Ju Hwang(参考訳) 多様なタスクで最近の言語モデルが大きな成功を収めたものの、トレーニングデータに制限のある低リソース環境での深刻なパフォーマンス低下に苦しむ。 既存の多くの作業では、トレーニングデータから合成データを生成し、その上でモデルをトレーニングすることでこの問題に対処している。 しかし、低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少なく、生成したサンプルの最適度が低く、多様性が低い。 そこで本研究では,与えられたトレーニングデータとともに,他のデータセットからの豊富なサンプルを組み込むことにより,トレーニングデータを強化する新しい手法を提案する。 具体的には、まず、与えられたシードデータと類似性に基づいて、入力出力ペアやコンテキストなどの他のデータセットから関連したインスタンスを検索し、その後、元のサンプルと検索されたサンプルの内外におけるコンテキスト情報を備えた新しいサンプルを生成するようにLCMに促す。 このアプローチは、生成されたデータが関連するだけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。 我々は、トレーニングとテストタイムのデータ拡張シナリオの低リソース設定下で、複数のデータセット上で提案したRetrieval-Augmented Data Augmentation (RADA)フレームワークを検証する。

Despite large successes of recent language models on diverse tasks, they suffer from severe performance degeneration in low-resource settings with limited training data available. Many existing works tackle this problem by generating synthetic data from the training data and then training models on them, recently using Large Language Models (LLMs). However, in low-resource settings, the amount of seed data samples to use for data augmentation is very small, which makes generated samples suboptimal and less diverse. To tackle this challenge, we propose a novel method that augments training data by incorporating a wealth of examples from other datasets, along with the given training data. Specifically, we first retrieve the relevant instances from other datasets, such as their input-output pairs or contexts, based on their similarities with the given seed data, and then prompt LLMs to generate new samples with the contextual information within and across the original and retrieved samples. This approach can ensure that the generated data is not only relevant but also more diverse than what could be achieved using the limited seed data alone. We validate our proposed Retrieval-Augmented Data Augmentation (RADA) framework on multiple datasets under low-resource settings of training and test-time data augmentation scenarios, on which it outperforms existing LLM-powered data augmentation baselines.
翻訳日:2024-02-22 17:20:57 公開日:2024-02-21
# マルチエージェント強化学習を用いた対話型自律走行シナリオにおける異種運転行動のモデル化

Learning to Model Diverse Driving Behaviors in Highly Interactive Autonomous Driving Scenarios with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.13481v1 )

ライセンス: Link先を確認
Liu Weiwei, Hu Wenxuan, Jing Wei, Lei Lanxin, Gao Lingping and Liu Yong(参考訳) マルチエージェント強化学習(marl)によって訓練された自動運転車は、多くの運転シナリオで印象的な結果を示している。 しかしながら、これらの訓練されたポリシーのパフォーマンスは、特に高度にインタラクティブな状況において、様々な運転スタイルや個性に直面した場合に影響を受ける可能性がある。 これは、従来のMARLアルゴリズムが全てのエージェント間で完全に協調的な振る舞いを仮定して動作し、トレーニング中のチーム報酬の最大化に集中するためである。 この問題に対処するために,協調価値関数とパーソナリティパラメータを含むPersonality Modeling Network (PeMN)を導入し,多種多様な相互作用を高対話シナリオでモデル化する。 pemnはまた、さまざまな行動を伴うバックグラウンドトラフィックフローのトレーニングを可能にし、ego車両の性能と一般化を改善している。 その結果,パーソナリティパラメータが多種多様な運転スタイルを効果的にモデル化し,pemnで訓練した政策が従来のmarl法よりも優れた一般化を示すことが示された。

Autonomous vehicles trained through Multi-Agent Reinforcement Learning (MARL) have shown impressive results in many driving scenarios. However, the performance of these trained policies can be impacted when faced with diverse driving styles and personalities, particularly in highly interactive situations. This is because conventional MARL algorithms usually operate under the assumption of fully cooperative behavior among all agents and focus on maximizing team rewards during training. To address this issue, we introduce the Personality Modeling Network (PeMN), which includes a cooperation value function and personality parameters to model the varied interactions in high-interactive scenarios. The PeMN also enables the training of a background traffic flow with diverse behaviors, thereby improving the performance and generalization of the ego vehicle. Our extensive experimental studies, which incorporate different personality parameters in high-interactive driving scenarios, demonstrate that the personality parameters effectively model diverse driving styles and that policies trained with PeMN demonstrate better generalization compared to traditional MARL methods.
翻訳日:2024-02-22 17:19:44 公開日:2024-02-21
# 不規則時系列画像からの緑内障予知のためのマルチスケール時空間変圧器による非定常学習

Multi-scale Spatio-temporal Transformer-based Imbalanced Longitudinal Learning for Glaucoma Forecasting from Irregular Time Series Images ( http://arxiv.org/abs/2402.13475v1 )

ライセンス: Link先を確認
Xikai Yang, Jian Wu, Xi Wang, Yuchen Yuan, Ning Li Wang, Pheng-Ann Heng(参考訳) 緑内障は、進行性視神経線維損傷と不可逆性視覚障害を引き起こす主要な眼疾患の1つである。 緑内障の予知は、潜在的な患者の早期スクリーニングと介入に良い解決策であり、疾患のさらなる悪化を防ぐのに有用である。 眼の一連の歴史的基礎画像を活用し、将来の緑内障発生の可能性を予測している。 しかし,不規則なサンプリング特性と不均衡なクラス分布は,疾患予測手法の開発における2つの課題である。 この目的のために,逐次画像入力に適した変換器アーキテクチャに基づくマルチスケール時空間変換器ネットワーク(MST-former)を導入し,時間次元と空間次元の両方で逐次画像から代表的意味情報を効果的に学習する。 具体的には,多次元構造を用いて様々な解像度の特徴を抽出し,各画像にエンコードされたリッチな空間情報を活用する。 さらに,不規則にサンプリングされたデータを効果的に処理できる非線形な方法で時間注意をスケールするために,時間距離行列を設計する。 さらに, クラス不均衡問題に対処するために, 温度制御型ソフトマックスクロスエントロピー損失を導入する。 緑内障予測のためのシークエンシャル・ファンドス画像(SIGF)データセットの大規模な実験は、提案したMST-former法の優位性を実証し、緑内障予測のAUCが98.6%に達した。 また,アルツハイマー病の神経画像化イニシアチブ(adni)mriデータセットにおいて優れた一般化能を示し,軽度認知障害とアルツハイマー病予測の精度は90.3%であり,比較法を大差で上回った。

Glaucoma is one of the major eye diseases that leads to progressive optic nerve fiber damage and irreversible blindness, afflicting millions of individuals. Glaucoma forecast is a good solution to early screening and intervention of potential patients, which is helpful to prevent further deterioration of the disease. It leverages a series of historical fundus images of an eye and forecasts the likelihood of glaucoma occurrence in the future. However, the irregular sampling nature and the imbalanced class distribution are two challenges in the development of disease forecasting approaches. To this end, we introduce the Multi-scale Spatio-temporal Transformer Network (MST-former) based on the transformer architecture tailored for sequential image inputs, which can effectively learn representative semantic information from sequential images on both temporal and spatial dimensions. Specifically, we employ a multi-scale structure to extract features at various resolutions, which can largely exploit rich spatial information encoded in each image. Besides, we design a time distance matrix to scale time attention in a non-linear manner, which could effectively deal with the irregularly sampled data. Furthermore, we introduce a temperature-controlled Balanced Softmax Cross-entropy loss to address the class imbalance issue. Extensive experiments on the Sequential fundus Images for Glaucoma Forecast (SIGF) dataset demonstrate the superiority of the proposed MST-former method, achieving an AUC of 98.6% for glaucoma forecasting. Besides, our method shows excellent generalization capability on the Alzheimer's Disease Neuroimaging Initiative (ADNI) MRI dataset, with an accuracy of 90.3% for mild cognitive impairment and Alzheimer's disease prediction, outperforming the compared method by a large margin.
翻訳日:2024-02-22 17:19:12 公開日:2024-02-21
# 生物医学的関係抽出のための言語モデルにおけるドメイン特化度と指導ファインタニングの重要性

How Important is Domain Specificity in Language Models and Instruction Finetuning for Biomedical Relation Extraction? ( http://arxiv.org/abs/2402.13470v1 )

ライセンス: Link先を確認
Aviv Brokman and Ramakanth Kavuluru(参考訳) 一般的なNLPドメインで開発された切削エッジ技術は、高価値でデータ豊富なバイオメディカルドメインに適用されることが多い。 過去数年間、生成言語モデル(LM)、命令の微調整、少数ショット学習がNLP研究の原動力となっている。 このように、生物医学的コーパスで事前訓練された生成的LMも増加し、下流タスクにおけるドメイン特異性の向上を期待して、生物医学的指導微調整も試みられている。 このようなモデルのトレーニングにおける非自明な努力を考えると、関係抽出の鍵となる生物医学的nlpタスクにおいて、どのような利点があるか調査する。 バイオメディカルコーパスでトレーニングされたlsmは、一般ドメインコーパスでトレーニングされたものよりも優れていますか? 2)バイオメディカルデータセットで微調整されたモデルが、データセットで微調整されたモデルや、単に事前訓練されたモデルよりも優れていますか。 既存のLMを使って4つのデータセットでテストする。 驚くべき結果として、一般ドメインモデルは典型的にはバイオメディカルドメインモデルよりも優れていた。 しかし、生物医学的な命令の微調整は、命令が桁違いに少ないにもかかわらず、一般的な命令の微調整と同様の程度に性能が向上した。 我々の研究成果は、ドメイン固有のバイオメディカル LM 構築よりも、一般 LM の大規模 バイオメディカル インストラクション 微調整に焦点を合わせることがより有益であることを示している。

Cutting edge techniques developed in the general NLP domain are often subsequently applied to the high-value, data-rich biomedical domain. The past few years have seen generative language models (LMs), instruction finetuning, and few-shot learning become foci of NLP research. As such, generative LMs pretrained on biomedical corpora have proliferated and biomedical instruction finetuning has been attempted as well, all with the hope that domain specificity improves performance on downstream tasks. Given the nontrivial effort in training such models, we investigate what, if any, benefits they have in the key biomedical NLP task of relation extraction. Specifically, we address two questions: (1) Do LMs trained on biomedical corpora outperform those trained on general domain corpora? (2) Do models instruction finetuned on biomedical datasets outperform those finetuned on assorted datasets or those simply pretrained? We tackle these questions using existing LMs, testing across four datasets. In a surprising result, general-domain models typically outperformed biomedical-domain models. However, biomedical instruction finetuning improved performance to a similar degree as general instruction finetuning, despite having orders of magnitude fewer instructions. Our findings suggest it may be more fruitful to focus research effort on larger-scale biomedical instruction finetuning of general LMs over building domain-specific biomedical LMs
翻訳日:2024-02-22 17:18:35 公開日:2024-02-21
# omgeval: 大規模言語モデルのためのオープン多言語生成評価ベンチマーク

OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2402.13524v1 )

ライセンス: Link先を確認
Yang Liu, Meng Xu, Shuo Wang, Liner Yang, Haoyu Wang, Zhenghao Liu, Cunliang Kong, Yun Chen, Yang Liu, Maosong Sun, Erhong Yang(参考訳) 現代の大きな言語モデル(LLM)は、一般的に世界中の様々な文化的背景から個人に恩恵を与えるべきである。 しかし、最近のLLM向けの先進的な世代評価ベンチマークは主に英語に焦点を当てている。 この目的のために,我々は,オープンソースの多言語生成テストセットであるomgevalを紹介し,異なる言語におけるllmの能力を評価する。 各言語について、OMGEvalは804のオープンエンド質問を提供し、一般的な知識や論理的推論など、LLMの重要な機能を幅広くカバーしている。 各質問は、人間のアノテータによって厳格に検証される。 特に、異なる文化的背景におけるLLMの互換性を十分に反映するために、非英語言語毎にローカライズを行う。 具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。 alpacaeval に続いて gpt-4 を用いて異なるモデルアウトプットを自動的にスコア付けし, 評価に密接な関係を示した。 我々は,提案するOMGEval上で,複数の代表的多言語 LLM を評価し,LLM の多言語能力をさらに理解し改善する上で,コミュニティにとって貴重な基準を提供すると考えている。 OMGEvalはhttps://github.com/blcuicall/OMGEvalで入手できる。

Modern large language models (LLMs) should generally benefit individuals from various cultural backgrounds around the world. However, most recent advanced generative evaluation benchmarks tailed for LLMs mainly focus on English. To this end, we introduce OMGEval, the first Open-source Multilingual Generative test set that can assess the capability of LLMs in different languages. For each language, OMGEval provides 804 open-ended questions, covering a wide range of important capabilities of LLMs, such as general knowledge, logical reasoning, and so on. Each question is rigorously verified by human annotators. Notably, to sufficiently reflect the compatibility of LLMs in different cultural backgrounds, we perform localization for each non-English language. Specifically, the current version of OMGEval includes 5 languages (i.e., Zh, Ru, Fr, Es, Ar). Following AlpacaEval, we employ GPT-4 as the adjudicator to automatically score different model outputs, which is shown closely related to human evaluation. We evaluate several representative multilingual LLMs on the proposed OMGEval, which we believe will provide a valuable reference for the community to further understand and improve the multilingual capability of LLMs. OMGEval is available at https://github.com/blcuicall/OMGEval.
翻訳日:2024-02-22 17:10:51 公開日:2024-02-21
# 脳波型アルツハイマー病分類におけるスペクトル・時間・空間情報のバランス

Balancing Spectral, Temporal and Spatial Information for EEG-based Alzheimer's Disease Classification ( http://arxiv.org/abs/2402.13523v1 )

ライセンス: Link先を確認
Stephan Goerttler, Fei He, Min Wu(参考訳) 今後の治療の見通しは、アルツハイマー病(AD)の費用対効果スクリーニングの開発を保証している。 この点において有望な候補は脳波(EEG)であり、最も経済的な画像モダリティの1つである。 脳波分析における最近の取り組みは、グラフ信号処理やグラフニューラルネットワークといった新しいフレームワークを用いて、空間情報の活用へと移行している。 本稿では,AD分類における各次元の比率を変化させることで,スペクトル情報や時間情報に対する空間情報の重要度を体系的に検討する。 そのために、私たちは2つのルーチンeegデータセット上で様々な次元の解像度設定をテストします。 空間情報は時間的情報よりも一貫して関連しており、スペクトル情報として等しく関連している。 これらの結果は,脳波に基づく広告分類において空間情報を考慮する必要性を強調した。 第2のデータセットでは、バランスのとれた特徴解像度が、分類精度を最大1.6%向上させることが分かりました。 我々の解像度に基づく特徴抽出は、AD分類を特に改善する可能性があり、多変量信号分類が一般的である。

The prospect of future treatment warrants the development of cost-effective screening for Alzheimer's disease (AD). A promising candidate in this regard is electroencephalography (EEG), as it is one of the most economic imaging modalities. Recent efforts in EEG analysis have shifted towards leveraging spatial information, employing novel frameworks such as graph signal processing or graph neural networks. Here, we systematically investigate the importance of spatial information relative to spectral or temporal information by varying the proportion of each dimension for AD classification. To do so, we test various dimension resolution configurations on two routine EEG datasets. We find that spatial information is consistently more relevant than temporal information and equally relevant as spectral information. These results emphasise the necessity to consider spatial information for EEG-based AD classification. On our second dataset, we further find that well-balanced feature resolutions boost classification accuracy by up to 1.6%. Our resolution-based feature extraction has the potential to improve AD classification specifically, and multivariate signal classification generally.
翻訳日:2024-02-22 17:10:30 公開日:2024-02-21
# RecMind:シーカーの内部状況と日本の映画レコメンデーション・ダイアログ

RecMind: Japanese Movie Recommendation Dialogue with Seeker's Internal State ( http://arxiv.org/abs/2402.13522v1 )

ライセンス: Link先を確認
Takashi Kodama, Hirokazu Kiyomaru, Yin Jou Huang, Sadao Kurohashi(参考訳) 人間は対話においてインターロケータの内部状態に注意を払う。 例えば、リコメンデーション対話では、知識と関心のレベルなど、探索者の内部状態を推定しながらレコメンデーションを行う。 分析のための注釈付きリソースは存在せず,対象者の内部状態のアノテーションをエンティティレベルで格納した日本映画推薦対話データセットremindを構築した。 各エンティティは、要求者が注釈付主観的ラベルと、推奨者が注釈付主観的ラベルとを有する。 RecMindはまた、長い探究者の発話と対話し、探究者の内部状態の詳細な分析を可能にする。 RecMindに基づく分析では、探究者が知識を持っていないが、推薦成功への貢献に関心を持つ存在が明らかになった。 また、探索者の内的状態を明確に考慮し、思考の連鎖的プロンプトを利用する応答生成フレームワークを提案する。 人体評価の結果,提案手法は基準法と提案手法の整合性の両方において優れていた。

Humans pay careful attention to the interlocutor's internal state in dialogues. For example, in recommendation dialogues, we make recommendations while estimating the seeker's internal state, such as his/her level of knowledge and interest. Since there are no existing annotated resources for the analysis, we constructed RecMind, a Japanese movie recommendation dialogue dataset with annotations of the seeker's internal state at the entity level. Each entity has a subjective label annotated by the seeker and an objective label annotated by the recommender. RecMind also features engaging dialogues with long seeker's utterances, enabling a detailed analysis of the seeker's internal state. Our analysis based on RecMind reveals that entities that the seeker has no knowledge about but has an interest in contribute to recommendation success. We also propose a response generation framework that explicitly considers the seeker's internal state, utilizing the chain-of-thought prompting. The human evaluation results show that our proposed method outperforms the baseline method in both consistency and the success of recommendations.
翻訳日:2024-02-22 17:10:15 公開日:2024-02-21
# コード生成のためのテスト駆動開発

Test-Driven Development for Code Generation ( http://arxiv.org/abs/2402.13521v1 )

ライセンス: Link先を確認
Noble Saji Mathews and Meiyappan Nagappan(参考訳) GPT4のような大規模言語モデル(LLM)は問題文からコードスニペットを生成する能力を示している。 従来、人間によるソフトウェア開発は、問題ステートメントや要件からコードを書く同様の方法に従っていた。 しかし、過去にはテスト駆動開発(TDD)の価値を示すいくつかの研究があり、そこでは、人が機能のためのコードが書かれる前に問題文に基づいてテストを書く。 LLMベースのコード生成のコンテキストでは、TDDの明らかなメリットの1つは、生成されたコードが与えられたテストをすべてパスしたかどうかを開発者が確実に知っていることです。 そこで本稿では,GPT4の入力として問題文とテストを与える方が,単に問題文を入力として与えるよりも優れているという仮説を実証的に評価したい。 仮説をテストするために、フレームワークTGenを構築します。 MBPP、HumanEval、CodeChefのデータセットに関する実験では、テストを含むと、それらを含めるよりも多くのプログラミング問題を解決できることがわかった。 したがって、コード生成タスクにGPT4を使用する場合、TDDは単に問題ステートメントを使用するよりも優れた開発モデルであることを示す。

Large language models (LLMs) like GPT4, have shown proficiency in generating code snippets from problem statements. Traditionally software development by humans followed a similar methodology of writing code from problem statements or requirements. However, in the past, there have been several studies that have shown the value of test-driven development (TDD) where humans write tests based on problem statements before the code for the functionality is written. In the context of LLM-based code generation, one obvious benefit of TDD is that the developer then knows for sure if the generated code has passed all the given tests or not. Therefore, in this paper, we want to empirically evaluate the hypothesis: giving the problem statements and tests as input to GPT4 is better than just giving the problem statement as input. To test our hypothesis, we build a framework TGen. In our experiments on the MBPP, HumanEval and CodeChef datasets, we consistently find that including tests solves more programming problems than not including them. Thus we show that TDD is a better development model than just using a problem statement when using GPT4 for code generation tasks.
翻訳日:2024-02-22 17:09:54 公開日:2024-02-21
# 工学的階層対称性

Engineering Hierarchical Symmetries ( http://arxiv.org/abs/2402.13519v1 )

ライセンス: Link先を確認
Zhanpeng Fu, Roderich Moessner, Hongzheng Zhao, Marin Bukov(参考訳) 本稿では,多体システムに対して,前者よりも低い対称性を示す予熱状態列を生成するための一般的な駆動プロトコルを提案する。 これらの対称性を示す有効ハミルトニアンを明示的に構築する。 これは階層的に創発的準保存則をインプリントし、非平衡問題における各対称性と共役順序を設計できる。 我々は、時空間的および位相的現象を含む明示的な例と、対称ラダー $\text{su(2)}{\rightarrow}\text{u(1)} {\rightarrow} \mathbb{z}_2{\rightarrow} e$ を実現するスピン連鎖を与える。

We present a general driving protocol for many-body systems to generate a sequence of prethermal regimes, each exhibiting a lower symmetry than the preceding one. We provide an explicit construction of effective Hamiltonians exhibiting these symmetries. This imprints emergent quasi-conservation laws hierarchically, enabling us to engineer the respective symmetries and concomitant orders in nonequilibrium matter. We provide explicit examples, including spatiotemporal and topological phenomena, as well as a spin chain realizing the symmetry ladder $\text{SU(2)}{\rightarrow}\text{U(1)} {\rightarrow} \mathbb{Z}_2{\rightarrow} E$.
翻訳日:2024-02-22 17:09:35 公開日:2024-02-21
# RITFIS:LLMベースのインテリジェントソフトウェアのためのロバスト入力テストフレームワーク

RITFIS: Robust input testing framework for LLMs-based intelligent software ( http://arxiv.org/abs/2402.13518v1 )

ライセンス: Link先を確認
Mingxuan Xiao, Yan Xiao, Hai Dong, Shunhui Ji and Pengcheng Zhang(参考訳) 自然言語処理(NLP)の知的ソフトウェアがLarge Language Models(LLM)に依存していることは、堅牢性テストの必要性を浮き彫りにしている。 現在のテスト手法は、LSMベースのソフトウェアによるプロンプトの堅牢性にのみ焦点をあてている。 実世界のインプットの複雑さと多様性を考えると、総合的なインプット(プロンプトや例を含む)を扱うLLMベースのソフトウェアの堅牢性を研究することは、そのパフォーマンスを徹底的に理解するために重要である。 本稿では,LLMベースの知的ソフトウェアのためのロバスト入力テストフレームワークであるRITFISを紹介する。 我々の知る限り、RITFISはLLMベースのインテリジェントソフトウェアが自然言語入力に対して堅牢であることを評価するために設計された最初のフレームワークである。 このフレームワークは、与えられた脅威モデルとプロンプトに基づいて、主にテストプロセスを組合せ最適化問題として定義する。 成功したテストケースは、目標関数によって決定され、摂動手段を通じて元の例の変換空間を作成し、テスト目的と言語制約の両方を満たすケースをフィルタリングするために一連の検索手法を用いる。 RITFISはモジュール設計で、LLMベースの知的ソフトウェアの堅牢性を評価する包括的手法を提供する。 RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計されていた。 LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証検証により示す。 しかし、特に長いテキストと構造的に複雑な脅威モデルを扱う場合、既存の方法には一般的に制限がある。 そこで我々は,5つの指標に基づく総合的な分析を行い,研究者と日常ユーザの両方にとって有益な,洞察に富んだテスト方法の最適化戦略を提供する。

The dependence of Natural Language Processing (NLP) intelligent software on Large Language Models (LLMs) is increasingly prominent, underscoring the necessity for robustness testing. Current testing methods focus solely on the robustness of LLM-based software to prompts. Given the complexity and diversity of real-world inputs, studying the robustness of LLMbased software in handling comprehensive inputs (including prompts and examples) is crucial for a thorough understanding of its performance. To this end, this paper introduces RITFIS, a Robust Input Testing Framework for LLM-based Intelligent Software. To our knowledge, RITFIS is the first framework designed to assess the robustness of LLM-based intelligent software against natural language inputs. This framework, based on given threat models and prompts, primarily defines the testing process as a combinatorial optimization problem. Successful test cases are determined by a goal function, creating a transformation space for the original examples through perturbation means, and employing a series of search methods to filter cases that meet both the testing objectives and language constraints. RITFIS, with its modular design, offers a comprehensive method for evaluating the robustness of LLMbased intelligent software. RITFIS adapts 17 automated testing methods, originally designed for Deep Neural Network (DNN)-based intelligent software, to the LLM-based software testing scenario. It demonstrates the effectiveness of RITFIS in evaluating LLM-based intelligent software through empirical validation. However, existing methods generally have limitations, especially when dealing with lengthy texts and structurally complex threat models. Therefore, we conducted a comprehensive analysis based on five metrics and provided insightful testing method optimization strategies, benefiting both researchers and everyday users.
翻訳日:2024-02-22 17:09:25 公開日:2024-02-21
# 大規模言語モデルジェイルブレイク攻撃に対するラウンドトリップ翻訳防御

Round Trip Translation Defence against Large Language Model Jailbreaking Attacks ( http://arxiv.org/abs/2402.13517v1 )

ライセンス: Link先を確認
Canaan Yung, Hadi Mohaghegh Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) 大規模言語モデル(LLM)は、人間の解釈可能な社会工学的攻撃に感受性があるが、LSMが対処するためには高いレベルの理解を必要とする。 既存の防御策は、これらの攻撃の半分以下しか軽減できない。 そこで本研究では,llmに対するソーシャルエンジニアリング攻撃を防御するために設計された最初のアルゴリズムであるラウンドトリップ変換(rtt)法を提案する。 RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。 この方法は多用途であり、軽量であり、異なるLLMに対して転送可能である。 当社の防御は、迅速な自動反復改善(pair)攻撃の70%以上を緩和することに成功しました。 また、MathsAttackを緩和し、攻撃成功率を約40%削減した最初の試みです。 私たちのコードはhttps://github.com/Cancanxxx/Round_Trip_Translation_Defenceで公開されています。

Large language models (LLMs) are susceptible to social-engineered attacks that are human-interpretable but require a high level of comprehension for LLMs to counteract. Existing defensive measures can only mitigate less than half of these attacks at most. To address this issue, we propose the Round Trip Translation (RTT) method, the first algorithm specifically designed to defend against social-engineered attacks on LLMs. RTT paraphrases the adversarial prompt and generalizes the idea conveyed, making it easier for LLMs to detect induced harmful behavior. This method is versatile, lightweight, and transferrable to different LLMs. Our defense successfully mitigated over 70% of Prompt Automatic Iterative Refinement (PAIR) attacks, which is currently the most effective defense to the best of our knowledge. We are also the first to attempt mitigating the MathsAttack and reduced its attack success rate by almost 40%. Our code is publicly available at https://github.com/Cancanxxx/Round_Trip_Translation_Defence
翻訳日:2024-02-22 17:08:56 公開日:2024-02-21
# Self-DC: いつ取得し、いつ生成するか? 構成不明質問に対する自己分割・解答器

Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions ( http://arxiv.org/abs/2402.13514v1 )

ライセンス: Link先を確認
Hongru Wang, Boyang Xue, Baohang Zhou, Tianhua Zhang, Cunxiang Wang, Guanhua Chen, Huimin Wang, Kam-fai Wong(参考訳) retrieve-then-readとgenerate-then-readの2つは、オープンドメインの質問応答において未知および既知の質問を処理する典型的なソリューションである。 しかし、いくつかの未知のサブクエストからなる作曲上の未知の疑問を考察する以前の作品はほとんどない。 したがって、単純な二項分類(未知または未知)は、各構成不明な問題に対して外部の検索を過度に呼び出すため、準最適かつ非効率となる。 この目的のために,最初の構成不明の質問応答データセット(cuqa)を提案し,llmがオンデマンドで異なるメソッドを適応的に呼び出すように自己除算(self-dc)フレームワークを導入し,パフォーマンスと効率性が向上した。 2つのデータセット(cuqaとfreshqa)における実験の結果は、いくつかの強力なベースラインに比べて検索時間がはるかに少ないほど、self-dcが同等あるいはそれ以上の性能を達成できることを示している。

Retrieve-then-read and generate-then-read are two typical solutions to handle unknown and known questions in open-domain question-answering, while the former retrieves necessary external knowledge and the later prompt the large language models to generate internal known knowledge encoded in the parameters. However, few of previous works consider the compositional unknown questions, which consist of several known or unknown sub-questions. Thus, simple binary classification (known or unknown) becomes sub-optimal and inefficient since it will call external retrieval excessively for each compositional unknown question. To this end, we propose the first Compositional unknown Question-Answering dataset (CuQA), and introduce a Self Divide-and-Conquer (Self-DC) framework to empower LLMs to adaptively call different methods on-demand, resulting in better performance and efficiency. Experimental results on two datasets (CuQA and FreshQA) demonstrate that Self-DC can achieve comparable or even better performance with much more less retrieval times compared with several strong baselines.
翻訳日:2024-02-22 17:08:39 公開日:2024-02-21
# 自己注意からマルコフモデルへ:生成型変圧器のダイナミクスを解き明かす

From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers ( http://arxiv.org/abs/2402.13512v1 )

ライセンス: Link先を確認
M. Emrullah Ildiz, Yixiao Huang, Yingcong Li, Ankit Singh Rawat and Samet Oymak(参考訳) 現代の言語モデルは、言語理解とテキスト生成を行うためにトランスフォーマーアーキテクチャとアテンションメカニズムに依存している。 本研究では,本モデルから抽出した一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。 モデルにプロンプトを入力すると、基本マルコフ鎖の遷移行列を重み付けする文脈条件付きマルコフ連鎖(CCMC)に従って出力トークンがサンプリングされる。 さらに、位置エンコーディングを組み込むことで、遷移確率の位置依存スケーリングが可能になる。 このフォーマリズムを基盤として、一貫した推定を保証し、IIDサンプルに基づいてサンプルの複雑性を保証する即時分布のための識別可能性/被覆条件を開発する。 最後に,初期プロンプトから生成された1つの出力軌跡から学習する問題について検討する。 我々は,自己注意による生成過程が崩壊して,その非混合性に起因するトークンの限られた部分集合をサンプリングする,興味深い勝者の獲得現象を特徴付ける。 これは、反復テキストを生成する現代のLLMの傾向に関する数学的説明を提供する。 まとめると、CCMCと等価性は自己注意とその性質を研究するための単純だが強力な枠組みを提供する。

Modern language models rely on the transformer architecture and attention mechanism to perform language understanding and text generation. In this work, we study learning a 1-layer self-attention model from a set of prompts and associated output data sampled from the model. We first establish a precise mapping between the self-attention mechanism and Markov models: Inputting a prompt to the model samples the output token according to a context-conditioned Markov chain (CCMC) which weights the transition matrix of a base Markov chain. Additionally, incorporating positional encoding results in position-dependent scaling of the transition probabilities. Building on this formalism, we develop identifiability/coverage conditions for the prompt distribution that guarantee consistent estimation and establish sample complexity guarantees under IID samples. Finally, we study the problem of learning from a single output trajectory generated from an initial prompt. We characterize an intriguing winner-takes-all phenomenon where the generative process implemented by self-attention collapses into sampling a limited subset of tokens due to its non-mixing nature. This provides a mathematical explanation to the tendency of modern LLMs to generate repetitive text. In summary, the equivalence to CCMC provides a simple but powerful framework to study self-attention and its properties.
翻訳日:2024-02-22 17:08:15 公開日:2024-02-21
# SealD-NeRF:ニューラルラジアンスフィールドによる動的シーンの対話型画素レベル編集

SealD-NeRF: Interactive Pixel-Level Editing for Dynamic Scenes by Neural Radiance Fields ( http://arxiv.org/abs/2402.13510v1 )

ライセンス: Link先を確認
Zhentao Huang, Yukun Shi, Neil Bruce, Minglun Gong(参考訳) 暗黙的な神経表現、特にNeural Radiance Fields(NeRF)の普及は、シーン後処理や3Dコンテンツ作成といったタスクに不可欠な、暗黙的な3Dモデルにおける編集機能の必要性の高まりを強調している。 NeRF編集の以前の取り組みにもかかわらず、編集の柔軟性と品質が制限されているため、課題は残る。 鍵となる問題は、リアルタイム更新のためのローカル編集をサポートするニューラル表現の開発である。 現行のNeRF編集手法では、ピクセルレベルの調整や詳細な幾何学や色の修正がほとんど静的シーンに限られている。 本稿では,D-NeRFネットワークをターゲットとした動的設定における画素レベルの編集のためのSeal-3Dの拡張であるSealD-NeRFを紹介する。 編集動作を特定の時間枠にマッピングし、動的シーン表現に責任のある変形ネットワークを凍結し、教師と学生のアプローチで変更を統合することで、シーケンス間の一貫した編集を可能にする。

The widespread adoption of implicit neural representations, especially Neural Radiance Fields (NeRF), highlights a growing need for editing capabilities in implicit 3D models, essential for tasks like scene post-processing and 3D content creation. Despite previous efforts in NeRF editing, challenges remain due to limitations in editing flexibility and quality. The key issue is developing a neural representation that supports local edits for real-time updates. Current NeRF editing methods, offering pixel-level adjustments or detailed geometry and color modifications, are mostly limited to static scenes. This paper introduces SealD-NeRF, an extension of Seal-3D for pixel-level editing in dynamic settings, specifically targeting the D-NeRF network. It allows for consistent edits across sequences by mapping editing actions to a specific timeframe, freezing the deformation network responsible for dynamic scene representation, and using a teacher-student approach to integrate changes.
翻訳日:2024-02-22 17:07:52 公開日:2024-02-21
# 一定時間暗号実装の有効検証に向けて

Towards Efficient Verification of Constant-Time Cryptographic Implementations ( http://arxiv.org/abs/2402.13506v1 )

ライセンス: Link先を確認
Luwei Cai and Fu Song and Taolue Chen(参考訳) タイミングサイドチャネル攻撃は、暗号実装の秘密を完全にまたは部分的に回復するために秘密に依存した実行時間を利用する。 コンスタントタイムプログラミングの分野は、タイミングのサイドチャネル攻撃に対する効果的なソフトウェアベースの対策であるが、コンスタントタイム実装の開発は困難でエラーやすいことが判明した。 現在の検証アプローチ/ツールは、実運用ソフトウェアに適用する場合、スケーラビリティと精度の問題に苦しむ。 本稿では,taint分析の新たなシナジーと自己合成プログラムの安全性検証に基づく実践的検証手法を提案する。 具体的には、まず、ifdsベースの軽量なtaint分析を使用して、多数の潜在(timing)サイドチャネルソースが実際には秘密を漏らしていないことを証明します。 次に、正確なtaint分析と安全性検証アプローチを用いて、残りの潜在的サイドチャネルソースが実際に秘密を漏らすことができるかどうかを判断する。 これには、オリジナルのプログラムのtaint-directed semi-cross-productとそのbooleanの抽象化、taint-directed self-compositionの新規な構成が含まれる。 当社のアプローチはクロスプラットフォームで完全に自動化されたCT-Proverとして実装されている。 実験は、現代の暗号およびSSL/TLSライブラリから実世界のベンチマークを検証するための効率と有効性を確認した。 特にct-proverは、オープンソースのsslライブラリ(例えば、mbed ssl、beassl)の新たな脆弱性を特定し、最先端ツールを大幅に上回っている。

Timing side-channel attacks exploit secret-dependent execution time to fully or partially recover secrets of cryptographic implementations, posing a severe threat to software security. Constant-time programming discipline is an effective software-based countermeasure against timing side-channel attacks, but developing constant-time implementations turns out to be challenging and error-prone. Current verification approaches/tools suffer from scalability and precision issues when applied to production software in practice. In this paper, we put forward practical verification approaches based on a novel synergy of taint analysis and safety verification of self-composed programs. Specifically, we first use an IFDS-based lightweight taint analysis to prove that a large number of potential (timing) side-channel sources do not actually leak secrets. We then resort to a precise taint analysis and a safety verification approach to determine whether the remaining potential side-channel sources can actually leak secrets. These include novel constructions of taint-directed semi-cross-product of the original program and its Boolean abstraction, and a taint-directed self-composition of the program. Our approach is implemented as a cross-platform and fully automated tool CT-Prover. The experiments confirm its efficiency and effectiveness in verifying real-world benchmarks from modern cryptographic and SSL/TLS libraries. In particular, CT-Prover identify new, confirmed vulnerabilities of open-source SSL libraries (e.g., Mbed SSL, BearSSL) and significantly outperforms the state-of-the-art tools.
翻訳日:2024-02-22 17:07:34 公開日:2024-02-21
# SimPro: 現実的な長期学習を目指すシンプルな確率的フレームワーク

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning ( http://arxiv.org/abs/2402.13505v1 )

ライセンス: Link先を確認
Chaoqun Du, Yizeng Han, Gao Huang(参考訳) 半教師付き学習の最近の進歩は、ラベル付きデータの不均衡に対処するという、より現実的で困難なタスクに焦点を当てている。 この領域における現在のアプローチは、ラベルのないデータのクラス分布に関する厳密な仮定を前提としており、したがってモデルの適応性は特定の分布範囲に限られる。 本研究では,ラベルなしデータの分布に関する既定の仮定に依存しない,高度に適応可能なフレームワークであるsimproを提案する。 確率モデルに基礎を置き,条件付きクラス分布と限界クラス分布のモデル化を明示的に分離することにより,期待最大化(em)アルゴリズムを革新的に洗練する。 この分離は、最大化フェーズにおけるクラス分布推定のための閉形式解を促進させ、ベイズ分類器の定式化に繋がる。 ベイズ分類器は、期待相における擬似ラベルの品質を高める。 驚くべきことに、simproフレームワークは理論的保証だけでなく、実装も容易である。 さらに,評価の範囲を広げる2つの新しいクラス分布を導入する。 本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。 私たちのコードはhttps://github.com/LeapLabTHU/SimProで利用可能です。

Recent advancements in semi-supervised learning have focused on a more realistic yet challenging task: addressing imbalances in labeled data while the class distribution of unlabeled data remains both unknown and potentially mismatched. Current approaches in this sphere often presuppose rigid assumptions regarding the class distribution of unlabeled data, thereby limiting the adaptability of models to only certain distribution ranges. In this study, we propose a novel approach, introducing a highly adaptable framework, designated as SimPro, which does not rely on any predefined assumptions about the distribution of unlabeled data. Our framework, grounded in a probabilistic model, innovatively refines the expectation-maximization (EM) algorithm by explicitly decoupling the modeling of conditional and marginal class distributions. This separation facilitates a closed-form solution for class distribution estimation during the maximization phase, leading to the formulation of a Bayes classifier. The Bayes classifier, in turn, enhances the quality of pseudo-labels in the expectation phase. Remarkably, the SimPro framework not only comes with theoretical guarantees but also is straightforward to implement. Moreover, we introduce two novel class distributions broadening the scope of the evaluation. Our method showcases consistent state-of-the-art performance across diverse benchmarks and data distribution scenarios. Our code is available at https://github.com/LeapLabTHU/SimPro.
翻訳日:2024-02-22 17:07:08 公開日:2024-02-21
# ガウス混合モデルによるバレン高原の回避

Avoiding barren plateaus via Gaussian Mixture Model ( http://arxiv.org/abs/2402.13501v1 )

ライセンス: Link先を確認
Xiao Shi and Yun Shang(参考訳) 変分量子アルゴリズムは量子コンピューティングにおいて最も代表的なアルゴリズムの1つであり、量子機械学習、量子シミュレーション、その他の関連分野において幅広い応用がある。 しかし、特に大量の量子ビット、深い回路層、大域的なコスト関数を扱う場合、不毛高原現象に関連する課題に直面し、しばしば訓練不能となる。 本稿では,ガウス混合モデルに基づく新しいパラメータ初期化戦略を提案する。 提案手法は,任意の長さとキュービットと任意のコスト関数を持つハードウェア効率のansatzに対するバレン高原問題に一貫して回避できることを厳密に証明する。 具体的には、提案手法によって提供される勾配ノルムの下限は、量子ビット数$N$とは独立であり、回路深さ$L$で増加する。 本結果は,量子回路のトレーニング性を決定する上でのガウス混合モデル初期化戦略の重要性を強く強調し,今後の理論的研究や実用化に有用なガイダンスを提供する。

Variational quantum algorithms is one of the most representative algorithms in quantum computing, which has a wide range of applications in quantum machine learning, quantum simulation and other related fields. However, they face challenges associated with the barren plateau phenomenon, especially when dealing with large numbers of qubits, deep circuit layers, or global cost functions, making them often untrainable. In this paper, we propose a novel parameter initialization strategy based on Gaussian Mixture Models. We rigorously prove that, the proposed initialization method consistently avoids the barren plateaus problem for hardware-efficient ansatz with arbitrary length and qubits and any given cost function. Specifically, we find that the gradient norm lower bound provided by the proposed method is independent of the number of qubits $N$ and increases with the circuit depth $L$. Our results strictly highlight the significance of Gaussian Mixture model initialization strategies in determining the trainability of quantum circuits, which provides valuable guidance for future theoretical investigations and practical applications.
翻訳日:2024-02-22 17:06:47 公開日:2024-02-21
# 最適リコールのための翻訳活用:ユーザプロファイルによるllmパーソナライゼーションの調整

Leveraging Translation For Optimal Recall: Tailoring LLM Personalization With User Profiles ( http://arxiv.org/abs/2402.13500v1 )

ライセンス: Link先を確認
Karthik Ravichandran, Sarmistha Sarna Gomasta(参考訳) 本稿では,ユーザの語彙-意味空間に根ざした反復的クエリリファインメントを用いた言語間情報検索(CLIR)システムにおけるリコール改善手法を提案する。 提案手法は,マルチレベル翻訳,セマンティック埋め込みに基づく拡張,およびユーザプロファイル中心の拡張を組み合わせることで,ユーザクエリと関連するドキュメント間の差異の一致に対処する。 最初のbm25検索、中間言語への翻訳、類似用語の検索、反復的な再ランキングを通じて、この技術は、個々のユーザーにパーソナライズされる可能性のある結果の範囲を拡大することを目的としている。 ニュースとTwitterデータセットの比較実験では、ROUGEメトリクスをまたいだ提案手法のベースラインBM25ランキングよりも優れたパフォーマンスを示している。 翻訳手法は多段階プロセスを通して意味的精度を維持できることを示した。 このパーソナライズされたCLIRフレームワークは、ユーザ言語のニュアンスに配慮したコンテキスト認識検索の改善パスを舗装する。

This paper explores a novel technique for improving recall in cross-language information retrieval (CLIR) systems using iterative query refinement grounded in the user's lexical-semantic space. The proposed methodology combines multi-level translation, semantic embedding-based expansion, and user profile-centered augmentation to address the challenge of matching variance between user queries and relevant documents. Through an initial BM25 retrieval, translation into intermediate languages, embedding lookup of similar terms, and iterative re-ranking, the technique aims to expand the scope of potentially relevant results personalized to the individual user. Comparative experiments on news and Twitter datasets demonstrate superior performance over baseline BM25 ranking for the proposed approach across ROUGE metrics. The translation methodology also showed maintained semantic accuracy through the multi-step process. This personalized CLIR framework paves the path for improved context-aware retrieval attentive to the nuances of user language.
翻訳日:2024-02-22 17:06:30 公開日:2024-02-21
# 低資源南アジア諸語における多言語対応

Multilingual Coreference Resolution in Low-resource South Asian Languages ( http://arxiv.org/abs/2402.13571v1 )

ライセンス: Link先を確認
Ritwik Mishra, Pooja Desur, Rajiv Ratn Shah, Ponnurangam Kumaraguru(参考訳) 参照解決は、同じ現実世界のエンティティに関連する会話の中でテキストスパンを識別するタスクを含む。 この課題は英語で広範囲に研究されてきたが、南アジア語での共参照解決のための公的アクセス可能なリソースやモデルが著しく不足している。 本研究は,31の南アジア言語における多言語共参照分解(transmucores)のための翻訳データセットを提案する。 予測された翻訳のほとんど全ては健全性チェックを合格し、75%の英語参照は予測された翻訳と一致した。 多言語エンコーダを用いて,トランスムコアの結合と,マニュアルアノテーションによるヒンズー語共参照解決データセットを用いて2つのオフ・ザ・セット・コリファレンス・レゾリューションモデルを訓練した。 LEA F1 と CoNLL F1 でそれぞれ 64 と 68 のスコアを得た。 この研究は、ヒンディー語黄金集合上でのエンドツーエンドのコア参照分解モデルを評価する最初のものである。 さらに、この研究は、分割前のデータセットに適用する場合の現在のコア参照評価指標の限界を強調し、より適切な評価指標の開発を提唱する。

Coreference resolution involves the task of identifying text spans within a discourse that pertain to the same real-world entity. While this task has been extensively explored in the English language, there has been a notable scarcity of publicly accessible resources and models for coreference resolution in South Asian languages. We introduce a Translated dataset for Multilingual Coreference Resolution (TransMuCoRes) in 31 South Asian languages using off-the-shelf tools for translation and word-alignment. Nearly all of the predicted translations successfully pass a sanity check, and 75% of English references align with their predicted translations. Using multilingual encoders, two off-the-shelf coreference resolution models were trained on a concatenation of TransMuCoRes and a Hindi coreference resolution dataset with manual annotations. The best performing model achieved a score of 64 and 68 for LEA F1 and CoNLL F1, respectively, on our test-split of Hindi golden set. This study is the first to evaluate an end-to-end coreference resolution model on a Hindi golden set. Furthermore, this work underscores the limitations of current coreference evaluation metrics when applied to datasets with split antecedents, advocating for the development of more suitable evaluation metrics.
翻訳日:2024-02-22 16:59:48 公開日:2024-02-21
# diffplf:ev充電負荷の確率的予測のための条件拡散モデル

DiffPLF: A Conditional Diffusion Model for Probabilistic Forecasting of EV Charging Load ( http://arxiv.org/abs/2402.13548v1 )

ライセンス: Link先を確認
Siyang Li, Hui Xiong, Yize Chen(参考訳) 配電網へのevの浸透により、充電ステーションの運用と需要側管理を促進するためには充電負荷予測が不可欠であるが、確率的な充電行動と関連する外因的要因により、将来の充電負荷パターンは不安定で予測が難しい。 そこで我々は,ev帯電の確率的負荷予測のためのdiffplfと呼ばれる新しい拡散モデルを開発した。 具体的には, 拡散過程の反転を学習することにより, ガウシアンを実時間系列データに先立って漸進的に変換できる分母拡散モデルを利用する。 さらに,このような拡散モデルとクロスアテンションベースの条件付け機構を結合して,充電需要プロファイルの条件生成を行う。 また,確率時系列予測タスクにdiffplfをより適合させ,より高精度で信頼性の高い区間を求めるためのタスクインフォームド微調整手法を提案する。 最後に、DiffPLFの優位性を検証するために複数の実験を行い、不安定な充電負荷の複雑な時間パターンを予測し、特定の共変量に基づいて制御可能な生成を行う。 その結果,従来の方法と比較して,MAEおよびCRPSでは39.58%,49.87%の顕著な上昇がみられた。

Due to the vast electric vehicle (EV) penetration to distribution grid, charging load forecasting is essential to promote charging station operation and demand-side management.However, the stochastic charging behaviors and associated exogenous factors render future charging load patterns quite volatile and hard to predict. Accordingly, we devise a novel Diffusion model termed DiffPLF for Probabilistic Load Forecasting of EV charging, which can explicitly approximate the predictive load distribution conditioned on historical data and related covariates. Specifically, we leverage a denoising diffusion model, which can progressively convert the Gaussian prior to real time-series data by learning a reversal of the diffusion process. Besides, we couple such diffusion model with a cross-attention-based conditioning mechanism to execute conditional generation for possible charging demand profiles. We also propose a task-informed fine-tuning technique to better adapt DiffPLF to the probabilistic time-series forecasting task and acquire more accurate and reliable predicted intervals. Finally, we conduct multiple experiments to validate the superiority of DiffPLF to predict complex temporal patterns of erratic charging load and carry out controllable generation based on certain covariate. Results demonstrate that we can attain a notable rise of 39.58% and 49.87% on MAE and CRPS respectively compared to the conventional method.
翻訳日:2024-02-22 16:59:27 公開日:2024-02-21
# ActiveRAG: アクティブラーニングによる知識の宝の発見

ActiveRAG: Revealing the Treasures of Knowledge via Active Learning ( http://arxiv.org/abs/2402.13547v1 )

ライセンス: Link先を確認
Zhipeng Xu, Zhenghao Liu, Yibin Liu, Chenyan Xiong, Yukun Yan, Shuo Wang, Shi Yu, Zhiyuan Liu, Ge Yu(参考訳) Retrieval Augmented Generation (RAG)は、知識集約的なタスクの解決を支援するLarge Language Models(LLM)の新しいパラダイムを導入した。 しかし、現在のRAGモデルはLLMを受動的知識受容体として位置づけ、学習能力や外部知識の理解能力を制限する。 本稿では、受動的知識獲得から能動的学習機構に移行する革新的なRAGフレームワークであるActiveRAGを提案する。 このアプローチは、知識構築機構を利用して、事前に獲得または記憶された知識と関連付けることで、外部知識をより深く理解する。 その後、認知的Nexusメカニズムを設計し、思考の連鎖と知識構築の両方の結果を取り入れ、LCMの本質的な認知を校正する。 実験の結果,ActiveRAGは従来のRAGモデルを超え,質問応答データセットの5%の改善を実現していることがわかった。 すべてのデータとコードはhttps://github.com/OpenMatch/ActiveRAGで入手できる。

Retrieval Augmented Generation (RAG) has introduced a new paradigm for Large Language Models (LLMs), aiding in the resolution of knowledge-intensive tasks. However, current RAG models position LLMs as passive knowledge receptors, thereby restricting their capacity for learning and comprehending external knowledge. In this paper, we present ActiveRAG, an innovative RAG framework that shifts from passive knowledge acquisition to an active learning mechanism. This approach utilizes the Knowledge Construction mechanism to develop a deeper understanding of external knowledge by associating it with previously acquired or memorized knowledge. Subsequently, it designs the Cognitive Nexus mechanism to incorporate the outcomes from both chains of thought and knowledge construction, thereby calibrating the intrinsic cognition of LLMs. Our experimental results demonstrate that ActiveRAG surpasses previous RAG models, achieving a 5% improvement on question-answering datasets. All data and codes are available at https://github.com/OpenMatch/ActiveRAG.
翻訳日:2024-02-22 16:59:05 公開日:2024-02-21
# LLMsがLong Videoを発表:LLMのインタラクティブなビジュアルアダプタでロングビデオの理解を向上

LLMs Meet Long Video: Advancing Long Video Comprehension with An Interactive Visual Adapter in LLMs ( http://arxiv.org/abs/2402.13546v1 )

ライセンス: Link先を確認
Yunxin Li, Xinyu Chen, Baotain Hu, Min Zhang(参考訳) 長いビデオ理解は、マルチメディアと人工知能の交差において重要かつ進行中の課題である。 ビデオの解釈に大規模言語モデル(LLM)を採用することは、新しくて有望な方法である。 しかし, この手法は, ビデオトークンの広範囲な配列, トークン集約の結果視覚的明瞭度が低下したこと, ビデオ関連の疑問に答えながら, 無関係な視覚的トークンから生じる課題に直面することにより, 計算コストの増大を招く。 これらの問題を緩和するために、細粒度視覚要素との相互作用を強化するためにLLM内に対話型視覚適応器(IVA)を提案する。 具体的には、まず、訓練済みの因果変換器とともに視覚エンコーダを活用して、時間的ビデオトークンに変換し、ビデオ命令でLSMに供給する。 その後,ldmの内部ブロック内にライトウェイトな時空間フレームセレクタと空間的特徴インタラクタを含むivaを組み込み,命令認識および細粒度の視覚信号をキャプチャした。 その結果,提案するビデオllmは,適切なロングビデオモデリングと正確な視覚インタラクションを通じて,ビデオコンテンツの包括的理解を促進する。 9つのビデオ理解ベンチマークを広範囲に実験した結果,インタラクティブなビジュアルアダプタにより,長時間ビデオqaタスクにおけるビデオllmの性能が大幅に向上した。 アブレーション研究は、長短ビデオ理解におけるIVAの有効性をさらに検証する。

Long video understanding is a significant and ongoing challenge in the intersection of multimedia and artificial intelligence. Employing large language models (LLMs) for comprehending video becomes an emerging and promising method. However, this approach incurs high computational costs due to the extensive array of video tokens, experiences reduced visual clarity as a consequence of token aggregation, and confronts challenges arising from irrelevant visual tokens while answering video-related questions. To alleviate these issues, we present an Interactive Visual Adapter (IVA) within LLMs, designed to enhance interaction with fine-grained visual elements. Specifically, we first transform long videos into temporal video tokens via leveraging a visual encoder alongside a pretrained causal transformer, then feed them into LLMs with the video instructions. Subsequently, we integrated IVA, which contains a lightweight temporal frame selector and a spatial feature interactor, within the internal blocks of LLMs to capture instruction-aware and fine-grained visual signals. Consequently, the proposed video-LLM facilitates a comprehensive understanding of long video content through appropriate long video modeling and precise visual interactions. We conducted extensive experiments on nine video understanding benchmarks and experimental results show that our interactive visual adapter significantly improves the performance of video LLMs on long video QA tasks. Ablation studies further verify the effectiveness of IVA in long and short video understandings.
翻訳日:2024-02-22 16:58:47 公開日:2024-02-21
# テキスト改ざん検出と認識のための2段階デュアルパスフレームワーク

A Two-Stage Dual-Path Framework for Text Tampering Detection and Recognition ( http://arxiv.org/abs/2402.13545v1 )

ライセンス: Link先を確認
Guandong Li, Xian Yang, Wenpin Ma(参考訳) 文書改ざん検出は、常に改ざん検出の重要な側面である。 深層学習の出現前は,文書改ざん検出は困難であった。 深層学習に基づくテキスト改ざん検出の分野でいくつかの探究を行った。 我々のPsタンパー検出法は,機能アシスト,監査点位置決め,タンパー認識の3段階を含む。 階層的なフィルタリングとグレード付き出力(改ざん/改ざん/改ざん/未改ざん)を含む。 人工タンパーデータの特徴を組み合わせることで、様々なシナリオ(ノイズの追加/置換、単一文字/空間置換、スメアリング/スプライシング、輝度/コントラスト調整など)におけるデータサンプルのシミュレーションと拡張を行う。 補助機能はexif/binary streamキーワード検索/ノイズで、結果に基づいて分岐検出に使用される。 監査ポイントポジショニングは、高濃度および低密度検出のためのしきい値検出フレームワークと制御を使用する。 タンパー認識は、rgbとelaストリーム特徴抽出を備えたデュアルパスデュアルストリーム認識ネットワークを採用している。 自己相関パーセンタイルプーリングによる次元減少後、融合出力はvladを介して処理され、精度0.804、リコール0.659、精度0.913となる。

Document tamper detection has always been an important aspect of tamper detection. Before the advent of deep learning, document tamper detection was difficult. We have made some explorations in the field of text tamper detection based on deep learning. Our Ps tamper detection method includes three steps: feature assistance, audit point positioning, and tamper recognition. It involves hierarchical filtering and graded output (tampered/suspected tampered/untampered). By combining artificial tamper data features, we simulate and augment data samples in various scenarios (cropping with noise addition/replacement, single character/space replacement, smearing/splicing, brightness/contrast adjustment, etc.). The auxiliary features include exif/binary stream keyword retrieval/noise, which are used for branch detection based on the results. Audit point positioning uses detection frameworks and controls thresholds for high and low density detection. Tamper recognition employs a dual-path dual-stream recognition network, with RGB and ELA stream feature extraction. After dimensionality reduction through self-correlation percentile pooling, the fused output is processed through vlad, yielding an accuracy of 0.804, recall of 0.659, and precision of 0.913.
翻訳日:2024-02-22 16:58:22 公開日:2024-02-21
# ARL2: 自己誘導型アダプティブレバレンスラベリングによるブラックボックス大言語モデルの検索

ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling ( http://arxiv.org/abs/2402.13542v1 )

ライセンス: Link先を確認
Lingxi Zhang, Yue Yu, Kuan Wang, Chao Zhang(参考訳) Retrieval-augmented generationは、外部知識ソースから関連する情報を取り入れることで、大きな言語モデル(LLM)を強化する。 これにより、llmは特定のドメインに適応でき、知識集約的なタスクにおける幻覚を緩和できる。 しかし、既存のレトリバーは、異なるトレーニングプロセスとLLMのブラックボックスの性質のために、LLMと不一致であることが多い。 この課題に対処するために,LLMをラベルとして活用するレトリバー学習技術であるARL2を提案する。 ARL2 は LLM を利用してアノテートし、関連するエビデンスを記録し、ロバストな LLM の監督からレトリバーを学習する。 さらに、ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。 広汎な実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。 さらに、arl2は堅牢な転送学習能力と強いゼロショット一般化能力を示す。 コードは \url{https://github.com/zhanglingxi-cs/arl2}で公開される。

Retrieval-augmented generation enhances large language models (LLMs) by incorporating relevant information from external knowledge sources. This enables LLMs to adapt to specific domains and mitigate hallucinations in knowledge-intensive tasks. However, existing retrievers are often misaligned with LLMs due to their separate training processes and the black-box nature of LLMs. To address this challenge, we propose ARL2, a retriever learning technique that harnesses LLMs as labelers. ARL2 leverages LLMs to annotate and score relevant evidence, enabling learning the retriever from robust LLM supervision. Furthermore, ARL2 uses an adaptive self-training strategy for curating high-quality and diverse relevance data, which can effectively reduce the annotation cost. Extensive experiments demonstrate the effectiveness of ARL2, achieving accuracy improvements of 5.4% on NQ and 4.6% on MMLU compared to the state-of-the-art methods. Additionally, ARL2 exhibits robust transfer learning capabilities and strong zero-shot generalization abilities. Our code will be published at \url{https://github.com/zhanglingxi-cs/ARL2}.
翻訳日:2024-02-22 16:58:01 公開日:2024-02-21
# effloc: 6自由度カメラ再ローカライズのための軽量視覚トランスフォーマー

EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera Relocalization ( http://arxiv.org/abs/2402.13537v1 )

ライセンス: Link先を確認
Zhendong Xiao, Changhao Chen, Shan Yang, Wu Wei(参考訳) カメラのリローカライゼーションは、AR、ドローン、ロボティクス、自動運転など、コンピュータビジョンにおいて重要な役割を担っている。 画像から3Dカメラの位置と方向(6-DoF)を推定する。 SLAMのような従来の方法とは異なり、最近の進歩はエンドツーエンドのポーズ推定にディープラーニングを使用している。 EffLocは,シングルイメージカメラ再ローカライズのための新しい視覚変換器である。 efflocの階層レイアウト、メモリバウンドセルフアテンション、フィードフォワード層は、メモリ効率とチャネル間通信を促進する。 提案する逐次グループアテンション(SGA)モジュールは,入力特徴を多様化し,冗長性を低減し,モデル容量を拡大することにより,計算効率を向上させる。 EffLocは効率と正確性に優れ、AtLocやMapNetといった先行手法よりも優れています。 大規模な屋外自動車運転のシナリオで成長し、シンプルさを確保し、エンドツーエンドのトレーニング性を確保し、手作りの損失機能を排除する。

Camera relocalization is pivotal in computer vision, with applications in AR, drones, robotics, and autonomous driving. It estimates 3D camera position and orientation (6-DoF) from images. Unlike traditional methods like SLAM, recent strides use deep learning for direct end-to-end pose estimation. We propose EffLoc, a novel efficient Vision Transformer for single-image camera relocalization. EffLoc's hierarchical layout, memory-bound self-attention, and feed-forward layers boost memory efficiency and inter-channel communication. Our introduced sequential group attention (SGA) module enhances computational efficiency by diversifying input features, reducing redundancy, and expanding model capacity. EffLoc excels in efficiency and accuracy, outperforming prior methods, such as AtLoc and MapNet. It thrives on large-scale outdoor car-driving scenario, ensuring simplicity, end-to-end trainability, and eliminating handcrafted loss functions.
翻訳日:2024-02-22 16:57:42 公開日:2024-02-21
# 画素当たりのマイクロビットにおける意味的画像圧縮限界の探索

Exploring the Limits of Semantic Image Compression at Micro-bits per Pixel ( http://arxiv.org/abs/2402.13536v1 )

ライセンス: Link先を確認
Jordan Dotzel, Bahaa Kotb, James Dotzel, Mohamed Abdelfattah, Zhiru Zhang(参考訳) JPEGのような従来の方法では、ピクセル値や周波数内容などの構造情報を操作することで画像圧縮を行う。 これらの手法は、1ピクセルあたり1ビット(bpp)あたりのビットレートを標準画像サイズで高くするのに有効である。 対照的に、テキストベースのセマンティック圧縮は、人間と進化した自然言語を使って概念とそれらの関係を直接記憶し、これらの健全な概念を効率的に表現している。 これらの手法は、位置、サイズ、方向といった構造情報を無視して極端に低いビットレートで動作することができる。 本研究では,openai の gpt-4v と dall-e3 を用いて画像圧縮のための品質圧縮フロンティアを探索し,現在の技術限界を特定する。 我々は、デコードされた画像を改善するために反復的リフレクションプロセスを導入することにより、100$\mu$bpp(JPEGよりも100$10,000\times$小さい)のセマンティック圧縮をプッシュする。 さらに、この100$\mu$bppレベルは、標準的な画像解像度におけるセマンティック圧縮のソフトな制限を表すと仮定する。

Traditional methods, such as JPEG, perform image compression by operating on structural information, such as pixel values or frequency content. These methods are effective to bitrates around one bit per pixel (bpp) and higher at standard image sizes. In contrast, text-based semantic compression directly stores concepts and their relationships using natural language, which has evolved with humans to efficiently represent these salient concepts. These methods can operate at extremely low bitrates by disregarding structural information like location, size, and orientation. In this work, we use GPT-4V and DALL-E3 from OpenAI to explore the quality-compression frontier for image compression and identify the limitations of current technology. We push semantic compression as low as 100 $\mu$bpp (up to $10,000\times$ smaller than JPEG) by introducing an iterative reflection process to improve the decoded image. We further hypothesize this 100 $\mu$bpp level represents a soft limit on semantic compression at standard image resolutions.
翻訳日:2024-02-22 16:57:30 公開日:2024-02-21
# シークエンスラベリングのための効果的な不均一知識カリキュラム学習

An Effective Incorporating Heterogeneous Knowledge Curriculum Learning for Sequence Labeling ( http://arxiv.org/abs/2402.13534v1 )

ライセンス: Link先を確認
Xuemei Tang and Qi Su(参考訳) シーケンスラベリングモデルは、しばしば外部知識を取り入れることの恩恵を受ける。 しかし、このプラクティスはデータの不均一性を導入し、モデルを追加モジュールで複雑化し、ハイパフォーマンスなモデルをトレーニングするためのコストが増大する。 この課題に対処するために、シーケンスラベリングタスクに特化した2段階のカリキュラム学習(TCL)フレームワークを提案する。 tclフレームワークは、データインスタンスを容易から困難へと徐々に導入し、パフォーマンスとトレーニング速度の両方を改善することで、トレーニングを強化している。 さらに,シーケンスラベリングタスクの難易度を評価するためのさまざまな指標について検討する。 6つの中国語単語セグメンテーション(CWS)とPOS(Part-of-speech tagging)データセットの広範な実験を通じて、シーケンスラベリングモデルの性能向上におけるモデルの有効性を実証した。 さらに,tclがトレーニングを加速し,複雑なモデルに関連する遅いトレーニング問題を緩和することを示す。

Sequence labeling models often benefit from incorporating external knowledge. However, this practice introduces data heterogeneity and complicates the model with additional modules, leading to increased expenses for training a high-performing model. To address this challenge, we propose a two-stage curriculum learning (TCL) framework specifically designed for sequence labeling tasks. The TCL framework enhances training by gradually introducing data instances from easy to hard, aiming to improve both performance and training speed. Furthermore, we explore different metrics for assessing the difficulty levels of sequence labeling tasks. Through extensive experimentation on six Chinese word segmentation (CWS) and Part-of-speech tagging (POS) datasets, we demonstrate the effectiveness of our model in enhancing the performance of sequence labeling models. Additionally, our analysis indicates that TCL accelerates training and alleviates the slow training problem associated with complex models.
翻訳日:2024-02-22 16:57:10 公開日:2024-02-21
# FinGPT-HPC:高性能コンピューティングを用いた金融アプリケーションのための大規模言語モデルの効率的な事前学習と微調整

FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing ( http://arxiv.org/abs/2402.13533v1 )

ライセンス: Link先を確認
Xiao-Yang Liu, Jie Zhang, Guoxuan Wang, Weiqing Tong, and Anwar Walid(参考訳) 大規模言語モデル(llm)は計算量が多い。 計算作業負荷とメモリフットプリントは次元(層幅)と2倍に増加する。 LLMのパラメータのほとんどはトランス構造の線形層から来ており、非常に冗長である。 これらの線形層は計算ワークロードの80%以上とモデルサイズの99%を占めている。 LLMの事前訓練と微調整には,3つの大きな課題がある。 1) 線状層の冗長性を低減すること。 2) GPUメモリフットプリントの削減 3) 分散トレーニングにおけるGPU利用率の向上。 LoRAやQLoRAといった以前の手法では、トレーニング可能なパラメータの数とモデルサイズをそれぞれ削減するために、低ランク行列と量子化を使用していた。 しかし、結果のモデルは依然として大量のGPUメモリを消費する。 本稿では,低ランク構造を利用して金融分野のllmの事前学習と微調整を行う高性能gpuベースの手法を提案する。 変圧器構造の1つの従来の線形層を2つのより狭い線形層に置き換えることにより,パラメータ数を数桁削減できる。 パラメータを低精度(8ビットおよび4ビット)に定量化することで、得られたモデルのメモリ消費はさらに削減される。 既存のLCMと比較すると,精度低下を伴わないモデル圧縮比2.64倍の高速化を実現している。 微調整では,一般的なタスクにおける平均精度が6.3%,財務タスクが24.0%,gpuメモリ使用率が6.3倍に向上した。 われわれのモデルのサイズは0.59GB以下で、スマートフォンで推測できる。

Large language models (LLMs) are computationally intensive. The computation workload and the memory footprint grow quadratically with the dimension (layer width). Most of LLMs' parameters come from the linear layers of the transformer structure and are highly redundant. These linear layers contribute more than 80% of the computation workload and 99% of the model size. To pretrain and finetune LLMs efficiently, there are three major challenges to address: 1) reducing redundancy of the linear layers; 2) reducing GPU memory footprint; 3) improving GPU utilization when using distributed training. Prior methods, such as LoRA and QLoRA, utilized low-rank matrices and quantization to reduce the number of trainable parameters and model size, respectively. However, the resulting model still consumes a large amount of GPU memory. In this paper, we present high-performance GPU-based methods that exploit low-rank structures to pretrain and finetune LLMs for financial applications. We replace one conventional linear layer of the transformer structure with two narrower linear layers, which allows us to reduce the number of parameters by several orders of magnitude. By quantizing the parameters into low precision (8-bit and 4-bit), the memory consumption of the resulting model is further reduced. Compared with existing LLMs, our methods achieve a speedup of 1.3X and a model compression ratio of 2.64X for pretaining without accuracy drop. For finetuning, our methods achieve an average accuracy increase of 6.3% and 24.0% in general tasks and financial tasks, respectively, and GPU memory consumption ratio of 6.3X. The sizes of our models are smaller than 0.59 GB, allowing inference on a smartphone.
翻訳日:2024-02-22 16:56:53 公開日:2024-02-21
# 誤情報を広めるための密通路レトリバーのバックドア攻撃

Backdoor Attacks on Dense Passage Retrievers for Disseminating Misinformation ( http://arxiv.org/abs/2402.13532v1 )

ライセンス: Link先を確認
Quanyu Long, Yue Deng, LeiLei Gan, Wenya Wang, and Sinno Jialin Pan(参考訳) ダンスレトリバーと検索拡張言語モデルは、様々なNLPアプリケーションで広く使われている。 信頼できるセキュアな結果を提供するように設計されているが、潜在的な攻撃に対するレトリバーの脆弱性はいまだ不明であり、セキュリティに関する懸念が高まっている。 本稿では,攻撃者が検索システムを通じてヘイトスピーチや広告といったターゲットとする誤情報を隠ぺいに広めることを目的とした,新たなシナリオを提案する。 そこで本研究では,過密通路検索において文法エラーが引き起こされる危険なバックドア攻撃を提案する。 このアプローチは、攻撃されたモデルが通常のクエリで正常に機能することを保証するが、ユーザが意図せずクエリに文法上の間違いをしたとき、攻撃者が指定したパスを返すように操作される。 広範な実験により,提案手法の有効性とステルス性が実証された。 ユーザクエリがエラーのない場合、このモデルは、トップk結果から誤情報を効果的にフィルタリングしながら、常に正確な情報を取得する。 しかし、クエリが文法エラーを含む場合、システムはターゲットとするコンテンツを取得する際に、かなり高い成功率を示します。

Dense retrievers and retrieval-augmented language models have been widely used in various NLP applications. Despite being designed to deliver reliable and secure outcomes, the vulnerability of retrievers to potential attacks remains unclear, raising concerns about their security. In this paper, we introduce a novel scenario where the attackers aim to covertly disseminate targeted misinformation, such as hate speech or advertisement, through a retrieval system. To achieve this, we propose a perilous backdoor attack triggered by grammar errors in dense passage retrieval. Our approach ensures that attacked models can function normally for standard queries but are manipulated to return passages specified by the attacker when users unintentionally make grammatical mistakes in their queries. Extensive experiments demonstrate the effectiveness and stealthiness of our proposed attack method. When a user query is error-free, our model consistently retrieves accurate information while effectively filtering out misinformation from the top-k results. However, when a query contains grammar errors, our system shows a significantly higher success rate in fetching the targeted content.
翻訳日:2024-02-22 16:56:28 公開日:2024-02-21
# 線形回帰のためのプライベートグレーディエントDescence:タイターエラー境界とインスタンス特異不確かさ推定

Private Gradient Descent for Linear Regression: Tighter Error Bounds and Instance-Specific Uncertainty Estimation ( http://arxiv.org/abs/2402.13531v1 )

ライセンス: Link先を確認
Gavin Brown, Krishnamurthy Dvijotham, Georgina Evans, Daogao Liu, Adam Smith, Abhradeep Thakurta(参考訳) 2乗誤差損失下での線形回帰に対する標準微分プライベート勾配降下のより良い解析を提供する。 入力に対する控えめな仮定の下では、各時間ステップにおける反復の分布を特徴付ける。 我々の分析はアルゴリズムの精度に新たな結果をもたらす: 適切なパラメータの固定選択の場合、サンプルの複雑さはデータの次元にのみ線形に依存する。 これは(非私的)通常の最小二乗推定器の次元依存性と、洗練された適応勾配クリッピングスキーム(Varshney et al., 2022; Liu et al., 2023)に依存する最近のプライベートアルゴリズムの次元依存性と一致する。 また、反復分布の解析により、特定のデータセット上のアルゴリズムの分散に自動的に適応する経験的最適化器の信頼区間を構築することができる。 我々は合成データの実験を通して定理を検証する。

We provide an improved analysis of standard differentially private gradient descent for linear regression under the squared error loss. Under modest assumptions on the input, we characterize the distribution of the iterate at each time step. Our analysis leads to new results on the algorithm's accuracy: for a proper fixed choice of hyperparameters, the sample complexity depends only linearly on the dimension of the data. This matches the dimension-dependence of the (non-private) ordinary least squares estimator as well as that of recent private algorithms that rely on sophisticated adaptive gradient-clipping schemes (Varshney et al., 2022; Liu et al., 2023). Our analysis of the iterates' distribution also allows us to construct confidence intervals for the empirical optimizer which adapt automatically to the variance of the algorithm on a particular data set. We validate our theorems through experiments on synthetic data.
翻訳日:2024-02-22 16:56:13 公開日:2024-02-21
# 両世界の多くの人々のベスト:未知の領域モデルに基づく予測付きオンラインリソース割り当て

Best of Many in Both Worlds: Online Resource Allocation with Predictions under Unknown Arrival Model ( http://arxiv.org/abs/2402.13530v1 )

ライセンス: Link先を確認
Lin An, Andrew A. Li, Benjamin Moseley, and Gabriel Visotsky(参考訳) 今日のオンライン意思決定者は、到着、要求、在庫など、将来の変数の予測を得られることが多い。 これらの予測は、単変量時系列の単純な予測アルゴリズムから、複数の時系列と追加の機能情報を活用する最先端の機械学習モデルまで、すべて生成することができる。 しかし、予測品質は意思決定者や意思決定者にとってしばしば不明であり、予測に盲目的に従うことは有害である。 本稿では,予測を入力とし,未知の予測品質に対して頑健に動作するアルゴリズムを提供することにより,この問題に対処する。 オンライン資源配分問題は,収益管理とオンライン意思決定において最も一般的なモデルの一つである。 この問題では、意思決定者は限られた量のリソースを持ち、リクエストは順次到着する。 各要求に対して、意思決定者は、将来の要求を知ることなく、一定の量の報酬を生成し、一定の量のリソースを消費するアクションを決定する必要がある。 意思決定者の目標は、リソース制約の対象となる全報酬を最大化することである。 我々は,各リソースのシャドー価格を予測として捉え,将来の要求の予測によって得ることができる。 予測品質は、予測と実際のシャドウ価格の間の距離$\ell_1$と定義されている。 提案手法は,未知品質の予測を入力とし,予測品質や要求到着モデルを知ることなく,要求到着モデル(統計的および敵対的)において漸近的に最適な性能を実現するアルゴリズムである。 提案アルゴリズムの性能は,アルゴリズムが到達したモデルと予測の精度を知っていれば,最も達成可能な性能と一致することを示す。 実験によってアルゴリズムを実証的に検証する。

Online decision-makers today can often obtain predictions on future variables, such as arrivals, demands, inventories, and so on. These predictions can be generated from simple forecasting algorithms for univariate time-series, all the way to state-of-the-art machine learning models that leverage multiple time-series and additional feature information. However, the prediction quality is often unknown to decisions-makers a priori, hence blindly following the predictions can be harmful. In this paper, we address this problem by giving algorithms that take predictions as inputs and perform robustly against the unknown prediction quality. We consider the online resource allocation problem, one of the most generic models in revenue management and online decision-making. In this problem, a decision maker has a limited amount of resources, and requests arrive sequentially. For each request, the decision-maker needs to decide on an action, which generates a certain amount of rewards and consumes a certain amount of resources, without knowing the future requests. The decision-maker's objective is to maximize the total rewards subject to resource constraints. We take the shadow price of each resource as prediction, which can be obtained by predictions on future requests. Prediction quality is naturally defined to be the $\ell_1$ distance between the prediction and the actual shadow price. Our main contribution is an algorithm which takes the prediction of unknown quality as an input, and achieves asymptotically optimal performance under both requests arrival models (stochastic and adversarial) without knowing the prediction quality and the requests arrival model beforehand. We show our algorithm's performance matches the best achievable performance of any algorithm had the arrival models and the accuracy of the predictions been known. We empirically validate our algorithm with experiments.
翻訳日:2024-02-22 16:55:59 公開日:2024-02-21
# インフラストラクチャー・アンバウズマン:構造的災害対応による今後の失敗

Infrastructure Ombudsman: Mining Future Failure Concerns from Structural Disaster Response ( http://arxiv.org/abs/2402.13528v1 )

ライセンス: Link先を確認
Md Towhidul Absar Chowdhury, Soumyajit Datta, Naveen Sharma, Ashiqur R. KhudaBukhsh(参考訳) 現在の研究は、災害対応戦略を改善するための構造的失敗に関連するソーシャルメディアの議論に焦点を当てている。 しかし、予想的失敗に関する懸念を論じるソーシャルweb投稿の検出は、未検討である。 このような懸念が適切な当局に伝達されれば、潜在的なインフラ障害の予防と緩和を支援することができる。 本稿では,インフラの特定の問題を自動的に検出するインフラストラクチャ・ボンボースマンを開発する。 我々の研究は、米国における最近のいくつかの構造的失敗を考察している。 Reddit と YouTube から抽出した新しいタスクに対して,2662 のソーシャル Web インスタンスのファースト・オブ・ザ・キンドデータセットを提示する。

Current research concentrates on studying discussions on social media related to structural failures to improve disaster response strategies. However, detecting social web posts discussing concerns about anticipatory failures is under-explored. If such concerns are channeled to the appropriate authorities, it can aid in the prevention and mitigation of potential infrastructural failures. In this paper, we develop an infrastructure ombudsman -- that automatically detects specific infrastructure concerns. Our work considers several recent structural failures in the US. We present a first-of-its-kind dataset of 2,662 social web instances for this novel task mined from Reddit and YouTube.
翻訳日:2024-02-22 16:55:17 公開日:2024-02-21
# matchnas: モバイルデプロイメントのためのディープニューラルネットワークポーティングの自動化による、スパースラベルデータコンテキストにおけるエッジaiの最適化

MatchNAS: Optimizing Edge AI in Sparse-Label Data Contexts via Automating Deep Neural Network Porting for Mobile Deployment ( http://arxiv.org/abs/2402.13525v1 )

ライセンス: Link先を確認
Hongtao Huang, Xiaojun Chang, Wen Hu and Lina Yao(参考訳) 近年、強力なディープニューラルネットワーク(dnn)によるエッジインテリジェンスの爆発が起きている。 1つの一般的なスキームは、強力なクラウドサーバ上でDNNをトレーニングし、その後、軽量になった後にモバイルデバイスに移植することである。 従来のアプローチでは、さまざまなエッジプラットフォーム用にDNNを手動でカスタマイズし、実際のデータで再トレーニングする。 しかし、プラットフォーム数が増加するにつれて、これらのアプローチは労働集約的かつ計算的に禁止される。 さらに、現実世界のデータは疎ラベルになりがちで、軽量モデルの難易度はさらに高まる。 本稿では,DNNをモバイルデバイスに移植するための新しいスキームであるMatchNASを提案する。 具体的には,ラベル付きデータと非ラベル付きデータの両方を用いて,大規模ネットワークファミリを同時に最適化し,異なるハードウェアプラットフォーム用に最適化されたネットワークを自動的に検索する。 MatchNASは、クラウドベースのDNNとエッジベースのDNNのギャップを埋める仲介役として機能する。

Recent years have seen the explosion of edge intelligence with powerful Deep Neural Networks (DNNs). One popular scheme is training DNNs on powerful cloud servers and subsequently porting them to mobile devices after being lightweight. Conventional approaches manually specialized DNNs for various edge platforms and retrain them with real-world data. However, as the number of platforms increases, these approaches become labour-intensive and computationally prohibitive. Additionally, real-world data tends to be sparse-label, further increasing the difficulty of lightweight models. In this paper, we propose MatchNAS, a novel scheme for porting DNNs to mobile devices. Specifically, we simultaneously optimise a large network family using both labelled and unlabelled data and then automatically search for tailored networks for different hardware platforms. MatchNAS acts as an intermediary that bridges the gap between cloud-based DNNs and edge-based DNNs.
翻訳日:2024-02-22 16:55:01 公開日:2024-02-21
# BBA:大規模視覚言語モデルを用いた推論のためのバイモーダルな行動アライメント

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models ( http://arxiv.org/abs/2402.13577v1 )

ライセンス: Link先を確認
Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong(参考訳) マルチモーダル推論は、大視野言語モデル(lvlms)の重要な能力である。 ドメイン特化言語(DSL)との統合は、正確な視覚表現を提供し、複雑なドメインと専門ドメインでより正確な推論を実行する機会を提供する。 しかしながら、バニラ・チェーン・オブ・ソート(CoT)の促進手法は、視覚的およびDSL表現のユニークな強みを効果的に活用する上での課題に直面している。 加えて、多段階推論タスクにおける重要なステップに対処するのに不足することが多い。 これらの課題を緩和するために、複雑なマルチモーダル推論タスクの拡張におけるDSLの可能性の最大化を目的とした、 \underline{B}i-Modal \underline{B}ehavioral \underline{A}lignment (BBA) プロンプト手法を導入する。 この手法はLVLMを誘導して視覚およびDSL表現のための別々の推論チェーンを作成する。 その後、いかなる矛盾にも対処してこれらの連鎖を整列させ、異なる様相から振る舞いを凝集的に統合する。 実験により,BBAは幾何問題解決におけるGPT-4V(ision)の性能を著しく向上させる(28.34\% \to 34.22\%$),チェス位置優位予測(42.08\% \to 46.99\%$),分子特性予測(77.47\% \to 83.52\%$)。

Multimodal reasoning stands as a pivotal capability for large vision-language models (LVLMs). The integration with Domain-Specific Languages (DSL), offering precise visual representations, equips these models with the opportunity to execute more accurate reasoning in complex and professional domains. However, the vanilla Chain-of-Thought (CoT) prompting method faces challenges in effectively leveraging the unique strengths of visual and DSL representations, primarily due to their differing reasoning mechanisms. Additionally, it often falls short in addressing critical steps in multi-step reasoning tasks. To mitigate these challenges, we introduce the \underline{B}i-Modal \underline{B}ehavioral \underline{A}lignment (BBA) prompting method, designed to maximize the potential of DSL in augmenting complex multi-modal reasoning tasks. This method initiates by guiding LVLMs to create separate reasoning chains for visual and DSL representations. Subsequently, it aligns these chains by addressing any inconsistencies, thus achieving a cohesive integration of behaviors from different modalities. Our experiments demonstrate that BBA substantially improves the performance of GPT-4V(ision) on geometry problem solving ($28.34\% \to 34.22\%$), chess positional advantage prediction ($42.08\% \to 46.99\%$) and molecular property prediction ($77.47\% \to 83.52\%$).
翻訳日:2024-02-22 16:47:04 公開日:2024-02-21
# 部分帰属強化によるビデオコーパスモーメント検索の改善

Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement ( http://arxiv.org/abs/2402.13576v1 )

ライセンス: Link先を確認
Danyang Hou and Liang Pang and Huawei Shen and Xueqi Cheng(参考訳) ビデオコーパスモーメント検索~(VCMR)は、自然言語を問合せとして、大量の未編集ビデオコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。 ビデオとクエリの関連性は,主に2つの側面で明らかである。(1)スコープ: 未トリミングビデオは情報豊富なフレームを含み,すべてクエリに関連するものではない。 強い相関は典型的には関連するモーメント内でのみ観察され、キーコンテンツをキャプチャすることの重要性を強調している。 2) モダリティ: 異なるモダリティに対するクエリの関連は様々であり, 動作記述は視覚的要素とより一致し, 文字会話はテキスト情報とより関連している。 これらのモダリティ固有のニュアンスを認識し、対処することは、VCMRの効果的な検索に不可欠である。 しかし、既存の手法では全ての動画コンテンツを等しく扱うことが多く、最適なモーメント検索に繋がる。 vcmrタスクでは,クエリとビデオ間の部分的関連性を効果的に捉えることが不可欠である。 本稿では,VCMRを改善するための部分関連拡張モデル~(PREM)を提案する。 VCMRにはビデオ検索とモーメントローカライゼーションという2つのサブタスクがある。 個別の目的に合わせるために,特定部分対応強化戦略を実装した。 ビデオ検索では,モダリティ固有のプーリングによって異なるモダリティに適したクエリ表現を生成し,より効果的なマッチングを実現するマルチモダリティ協調ビデオ検索器を導入する。 そこで本研究では,モーダリティ固有のゲートを用いたモーメントローカライザの提案と,モーメントローカライゼーションのためのマルチモーダル情報を融合したモーメントローカライザを提案する。 TVRとDiDeMoデータセットの実験結果は、提案モデルがベースラインを上回っ、VCMRの新たな最先端を実現していることを示している。

Video corpus moment retrieval~(VCMR) is a new video retrieval task aimed at retrieving a relevant moment from a large corpus of untrimmed videos using a natural language text as query. The relevance between the video and query is partial, mainly evident in two aspects: (1) Scope: The untrimmed video contains information-rich frames, and not all are relevant to the query. Strong correlation is typically observed only within the relevant moment, emphasizing the importance of capturing key content. (2) Modality: The relevance of query to different modalities varies; action descriptions align more with the visual elements, while character conversations are more related to textual information. Recognizing and addressing these modality-specific nuances is crucial for effective retrieval in VCMR. However, existing methods often treat all video contents equally, leading to sub-optimal moment retrieval. We argue that effectively capturing the partial relevance between the query and video is essential for the VCMR task. To this end, we propose a Partial Relevance Enhanced Model~(PREM) to improve VCMR. VCMR involves two sub-tasks: video retrieval and moment localization. To align with their distinct objectives, we implement specialized partial relevance enhancement strategies. For video retrieval, we introduce a multi-modal collaborative video retriever, generating distinct query representations tailored for different modalities by modality-specific pooling, ensuring a more effective match. For moment localization, we propose the focus-then-fuse moment localizer, utilizing modality-specific gates to capture essential content, followed by fusing multi-modal information for moment localization. Experimental results on TVR and DiDeMo datasets show that the proposed model outperforms the baselines, achieving a new state-of-the-art of VCMR.
翻訳日:2024-02-22 16:46:30 公開日:2024-02-21
# 微分的アプローチに基づくフレキシブルな物理的カモフラージュ生成

Flexible Physical Camouflage Generation Based on a Differential Approach ( http://arxiv.org/abs/2402.13575v1 )

ライセンス: Link先を確認
Yang Li, Wenyi Tan, Chenxing Zhao, Shuangju Zhou, Xinkai Liang, and Quan Pan(参考訳) 本研究は, 広範囲な3次元レンダリングフレームワークにおいて, 対向カモフラージュに適したニューラルレンダリングの新しいアプローチを提案する。 fpaと呼ばれるこの手法は、照明条件や素材のバリエーションを忠実にシミュレートし、3dターゲット上のテクスチャのニュアンスとリアルな表現を保証し、従来の技術を超えている。 これを実現するために,拡散モデルから逆パターンを学習する生成的アプローチを用いる。 これには、物理的世界におけるカモフラージュの敵対的かつ隠蔽的な性質を保証するために、特別に設計された対向的損失と隠蔽的制約損失が組み込まれている。 さらに,提案手法のステッカーモードでの有効性を示し,敵の情報に妥協することなくターゲットをカバーできることを示す。 経験的および物理的実験を通じて、FPAは攻撃成功率と伝達可能性の点で強い性能を示す。 さらに、デザインされたステッカーモードのカモフラージュと隠蔽の制約が組み合わされ、環境に適応し、多様なテクスチャのスタイルを生み出す。 以上の結果から,fpaアプローチの有用性と有効性が示唆された。

This study introduces a novel approach to neural rendering, specifically tailored for adversarial camouflage, within an extensive 3D rendering framework. Our method, named FPA, goes beyond traditional techniques by faithfully simulating lighting conditions and material variations, ensuring a nuanced and realistic representation of textures on a 3D target. To achieve this, we employ a generative approach that learns adversarial patterns from a diffusion model. This involves incorporating a specially designed adversarial loss and covert constraint loss to guarantee the adversarial and covert nature of the camouflage in the physical world. Furthermore, we showcase the effectiveness of the proposed camouflage in sticker mode, demonstrating its ability to cover the target without compromising adversarial information. Through empirical and physical experiments, FPA exhibits strong performance in terms of attack success rate and transferability. Additionally, the designed sticker-mode camouflage, coupled with a concealment constraint, adapts to the environment, yielding diverse styles of texture. Our findings highlight the versatility and efficacy of the FPA approach in adversarial camouflage applications.
翻訳日:2024-02-22 16:45:59 公開日:2024-02-21
# ToDo:高解像度画像の効率的な生成のためのToken Downsampling

ToDo: Token Downsampling for Efficient Generation of High-Resolution Images ( http://arxiv.org/abs/2402.13573v1 )

ライセンス: Link先を確認
Ethan Smith, Nayan Saxena, Aninda Saha(参考訳) 注意機構は画像拡散モデルにおいて重要であるが、その2次計算複雑性は、適切な時間とメモリ制約で処理できる画像のサイズを制限する。 本稿では、しばしば冗長な特徴を含む生成画像モデルにおける高密度注意の重要性を考察し、スペーサーの注意機構に適合させる。 本稿では,2048x2048等の高分解能では最大2倍,最大4.5倍の安定拡散推論を高速化するために,鍵および値トークンのトークンダウンサンプリングに依存する新しいトレーニングフリー方式todoを提案する。 提案手法は,効率のよいスループットと忠実さのバランスをとる上で,従来の手法よりも優れていることを示す。

Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048x2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity.
翻訳日:2024-02-22 16:45:38 公開日:2024-02-21
# ループ変圧器の変種表現力について

On the Expressive Power of a Variant of the Looped Transformer ( http://arxiv.org/abs/2402.13572v1 )

ライセンス: Link先を確認
Yihang Gao, Chuanyang Zheng, Enze Xie, Han Shi, Tianyang Hu, Yu Li, Michael K. Ng, Zhenguo Li, Zhaoqiang Liu(参考訳) 自然言語処理の他に、トランスフォーマーは科学計算やコンピュータビジョンなど幅広い応用を解く上で非常に優れた性能を発揮する。 以前の研究では、標準的なトランスフォーマーがいくつかのアルゴリズムを実行できるという表現力と能力の観点から、これを説明しようと試みている。 最近提案されたループ変換器(Yang et al., 2024; Giannou et al., 2023)によって動機付けられたアルゴリズム能力を持つトランスフォーマーを強化するため、アルゴリズム変換器(AlgoFormer)と呼ばれる新しいトランスフォーマーブロックを設計する。 標準変圧器やバニラループ変圧器と比較して,同一数のパラメータを用いた場合,アルゴリズム表現の表現性が著しく向上した。 特に,人間の設計した学習アルゴリズムの構造にインスパイアされて,タスク前処理に責任を持つ事前変換器,反復最適化アルゴリズムのためのループ変換器,後処理後に所望の結果を生成する後変換器から構成される。 我々は,algoformerの表現力に関する理論的証拠を提供し,人間設計アルゴリズムを反映させる。 さらに, 設計したトランスフォーマーが, 人間が設計したアルゴリズムよりもスマートになる可能性を示すために, 理論的および実証的な結果が提示された。 実験結果から,提案した変圧器は標準的な変圧器やバニラループ型変圧器よりも高い性能を示した。

Besides natural language processing, transformers exhibit extraordinary performance in solving broader applications, including scientific computing and computer vision. Previous works try to explain this from the expressive power and capability perspectives that standard transformers are capable of performing some algorithms. To empower transformers with algorithmic capabilities and motivated by the recently proposed looped transformer (Yang et al., 2024; Giannou et al., 2023), we design a novel transformer block, dubbed Algorithm Transformer (abbreviated as AlgoFormer). Compared with the standard transformer and vanilla looped transformer, the proposed AlgoFormer can achieve significantly higher expressiveness in algorithm representation when using the same number of parameters. In particular, inspired by the structure of human-designed learning algorithms, our transformer block consists of a pre-transformer that is responsible for task pre-processing, a looped transformer for iterative optimization algorithms, and a post-transformer for producing the desired results after post-processing. We provide theoretical evidence of the expressive power of the AlgoFormer in solving some challenging problems, mirroring human-designed algorithms. Furthermore, some theoretical and empirical results are presented to show that the designed transformer has the potential to be smarter than human-designed algorithms. Experimental results demonstrate the empirical superiority of the proposed transformer in that it outperforms the standard transformer and vanilla looped transformer in some challenging tasks.
翻訳日:2024-02-22 16:45:26 公開日:2024-02-21
# スポットチェック等価性:情報誘発機構の解釈可能な指標

Spot Check Equivalence: an Interpretable Metric for Information Elicitation Mechanisms ( http://arxiv.org/abs/2402.13567v1 )

ライセンス: Link先を確認
Shengwei Xu, Yichi Zhang, Paul Resnick, Grant Schoenebeck(参考訳) 高品質なデータはAIシステムの酸素に似ているため、クラウドソーシングワーカーからの情報を効果的に引き出すことは、高性能な機械学習アルゴリズムを開発する上での第一次問題となっている。 スポットチェックとピア予測という2つの主要なパラダイムは、人間のラベルから高品質なデータを評価し、インセンティブを与えるメカニズムの設計を可能にする。 これまでにこれらの技術の性能を比較するために,少なくとも3つの指標が提案されている[33, 8, 3]。 しかし、異なるメトリクスは様々な文脈で分岐し、矛盾する結果をもたらす。 本稿では,これらの相違した物語を調和させ,これらの指標のうち2つが実際にある文脈で同じであることを示す。 さらに,ピア予測機構の有効性を解釈可能な指標である \textit{spot check equivalence} を導入することで,これらの異なるコンテキストを統一する。 最後に,様々な文脈におけるスポットチェック等価性を計算するための2つの手法を提案し,提案手法の有効性をシミュレーションにより検証する。

Because high-quality data is like oxygen for AI systems, effectively eliciting information from crowdsourcing workers has become a first-order problem for developing high-performance machine learning algorithms. Two prevalent paradigms, spot-checking and peer prediction, enable the design of mechanisms to evaluate and incentivize high-quality data from human labelers. So far, at least three metrics have been proposed to compare the performances of these techniques [33, 8, 3]. However, different metrics lead to divergent and even contradictory results in various contexts. In this paper, we harmonize these divergent stories, showing that two of these metrics are actually the same within certain contexts and explain the divergence of the third. Moreover, we unify these different contexts by introducing \textit{Spot Check Equivalence}, which offers an interpretable metric for the effectiveness of a peer prediction mechanism. Finally, we present two approaches to compute spot check equivalence in various contexts, where simulation results verify the effectiveness of our proposed metric.
翻訳日:2024-02-22 16:44:59 公開日:2024-02-21
# イベント対応ビデオコーパスモーメント検索

Event-aware Video Corpus Moment Retrieval ( http://arxiv.org/abs/2402.13566v1 )

ライセンス: Link先を確認
Danyang Hou and Liang Pang and Huawei Shen and Xueqi Cheng(参考訳) Video Corpus Moment Retrieval(VCMR)は、自然言語クエリを使って、膨大な量の未編集ビデオのコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。 既存のVCMRの方法は、一般にフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似度を最大フレームの類似度に基づいてランク付けするが、このアプローチはフレーム間の情報、すなわちイベントに埋め込まれたセマンティック構造を見落としている。 そこで我々は,ビデオ検索の基本単位としてビデオ内のイベントを明示的に活用するEventFormerを提案する。 モデルはイベント推論と階層的イベントエンコーディングを通じてイベント表現を抽出する。 イベント推論モジュールは連続的および視覚的に類似したフレーム表現をイベントにグループ化し、階層的イベントエンコーディングはフレームレベルとイベントレベルで情報をエンコードする。 また,ビデオ中の隣接コンテンツの関連性を把握するために,トランスフォーマーにアンカー・マルチヘッド・セルフアテンションを導入する。 EventFormerのトレーニングは、VCMRの2つのサブタスクに対して、2分岐のコントラスト学習と2重最適化によって行われる。 TVR、ANetCaps、DiDeMoベンチマークに関する大規模な実験は、VCMRにおけるEventFormerの有効性と効率を示し、新しい最先端の結果を達成する。 さらに、部分関連ビデオ検索タスクにおいて、eventformerの有効性も検証される。

Video Corpus Moment Retrieval (VCMR) is a practical video retrieval task focused on identifying a specific moment within a vast corpus of untrimmed videos using the natural language query. Existing methods for VCMR typically rely on frame-aware video retrieval, calculating similarities between the query and video frames to rank videos based on maximum frame similarity.However, this approach overlooks the semantic structure embedded within the information between frames, namely, the event, a crucial element for human comprehension of videos. Motivated by this, we propose EventFormer, a model that explicitly utilizes events within videos as fundamental units for video retrieval. The model extracts event representations through event reasoning and hierarchical event encoding. The event reasoning module groups consecutive and visually similar frame representations into events, while the hierarchical event encoding encodes information at both the frame and event levels. We also introduce anchor multi-head self-attenion to encourage Transformer to capture the relevance of adjacent content in the video. The training of EventFormer is conducted by two-branch contrastive learning and dual optimization for two sub-tasks of VCMR. Extensive experiments on TVR, ANetCaps, and DiDeMo benchmarks show the effectiveness and efficiency of EventFormer in VCMR, achieving new state-of-the-art results. Additionally, the effectiveness of EventFormer is also validated on partially relevant video retrieval task.
翻訳日:2024-02-22 16:44:42 公開日:2024-02-21
# 言語間トランスファーにおける多言語学習の分析

Analysis of Multi-Source Language Training in Cross-Lingual Transfer ( http://arxiv.org/abs/2402.13562v1 )

ライセンス: Link先を確認
Seong Hoon Lim, Taejun Yun, Jinhyeon Kim, Jihun Choi and Taeuk Kim(参考訳) 多言語言語モデル(LM)の特定の言語とタスクのペアへの適応は、その条件に合わせたデータの可用性に大きく依存する。 言語間移動(XLT)法はこのデータ不足問題への対処に寄与しているが、その有効性の背後にあるメカニズムについては現在も議論が続いている。 本稿では,言語に依存しない,あるいはタスク固有の機能に重点を置く多言語LMを奨励する,XLTの内部動作に関する有望な仮定の1つに焦点を当てる。 我々は、XLTのパターンが、そのプロセスに関わる様々なソース言語でどのように変化するかを調べることで、この仮説を検証する。 実験の結果,マルチソース言語学習(Multi-Source Language Training (MSLT)-leads)と呼ぶXLTにおける複数のソース言語の使用が,言語に依存しない情報の利用によるXLTのメリットを裏付けるものと考えられる。 一方、任意の組み合わせのソース言語を使用することは、必ずしもより良いパフォーマンスを保証するとは限らない。 提案手法は,MSLTに有効な言語の組み合わせを特定するための単純なヒューリスティックスであり,その有効性を実証的に証明するものである。

The successful adaptation of multilingual language models (LMs) to a specific language-task pair critically depends on the availability of data tailored for that condition. While cross-lingual transfer (XLT) methods have contributed to addressing this data scarcity problem, there still exists ongoing debate about the mechanisms behind their effectiveness. In this work, we focus on one of promising assumptions about inner workings of XLT, that it encourages multilingual LMs to place greater emphasis on language-agnostic or task-specific features. We test this hypothesis by examining how the patterns of XLT change with a varying number of source languages involved in the process. Our experimental findings show that the use of multiple source languages in XLT-a technique we term Multi-Source Language Training (MSLT)-leads to increased mingling of embedding spaces for different languages, supporting the claim that XLT benefits from making use of language-independent information. On the other hand, we discover that using an arbitrary combination of source languages does not always guarantee better performance. We suggest simple heuristics for identifying effective language combinations for MSLT and empirically prove its effectiveness.
翻訳日:2024-02-22 16:44:16 公開日:2024-02-21
# 認知視覚言語マッパー : 視覚知識アライメント強化によるマルチモーダル理解の進歩

Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment ( http://arxiv.org/abs/2402.13561v1 )

ライセンス: Link先を確認
Yunxin Li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang(参考訳) 大規模マルチモーダルモデル(lmms)の現在の景観の評価と再考では、広く使われているビジュアル言語投影手法(q-formerやmlpなど)が、画像テキスト記述のアライメントを重視しながら、視覚と関連する知識を結びつける視覚知識のアライメントを無視しているのが観察されている。 視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。 本稿では,視覚的知識アライメントによるLMMの改善を主に検討し,特に知識に基づく視覚的質問応答(VQA)の挑戦を目的とした。 そこで本研究では,マルチモーダル命令チューニングステージで使用される事前学習された視覚知識調整器(vka)と細粒度知識アダプタ(fka)を含む認知視覚言語マッパー(cvlm)を提案する。 具体的には、小さな言語モデルとビジュアルエンコーダの相互作用に基づいてVKAを設計し、収集した画像知識のペアで学習し、視覚知識の獲得と投影を実現する。 FKAは画像の微細な視覚的知識を蒸留し、それをLLM(Large Language Models)に注入するために用いられる。 我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。 アブレーション研究は、それぞれVKAとFKAの有効性を検証する。

Evaluating and Rethinking the current landscape of Large Multimodal Models (LMMs), we observe that widely-used visual-language projection approaches (e.g., Q-former or MLP) focus on the alignment of image-text descriptions yet ignore the visual knowledge-dimension alignment, i.e., connecting visuals to their relevant knowledge. Visual knowledge plays a significant role in analyzing, inferring, and interpreting information from visuals, helping improve the accuracy of answers to knowledge-based visual questions. In this paper, we mainly explore improving LMMs with visual-language knowledge alignment, especially aimed at challenging knowledge-based visual question answering (VQA). To this end, we present a Cognitive Visual-Language Mapper (CVLM), which contains a pretrained Visual Knowledge Aligner (VKA) and a Fine-grained Knowledge Adapter (FKA) used in the multimodal instruction tuning stage. Specifically, we design the VKA based on the interaction between a small language model and a visual encoder, training it on collected image-knowledge pairs to achieve visual knowledge acquisition and projection. FKA is employed to distill the fine-grained visual knowledge of an image and inject it into Large Language Models (LLMs). We conduct extensive experiments on knowledge-based VQA benchmarks and experimental results show that CVLM significantly improves the performance of LMMs on knowledge-based VQA (average gain by 5.0%). Ablation studies also verify the effectiveness of VKA and FKA, respectively.
翻訳日:2024-02-22 16:43:55 公開日:2024-02-21
# 量子ビット$^{171}$yb$^+$ qubitsのためのマルチチャネル音響光学変調器に基づく個別アドレッシング光学の設計と特性評価

Design and characterization of individual addressing optics based on multi-channel acousto-optic modulator for $^{171}$Yb$^+$ qubits ( http://arxiv.org/abs/2402.13560v1 )

ライセンス: Link先を確認
Sungjoo Lim, Seunghyun Baek, Jacob Withlow, Marissa D'Onofrio, Tianyi Chen, Samuel Phiri, Stphen Crain, Kenneth R. Brown, Jungsang Kim, and Junki Kim(参考訳) 本稿では,捕獲イッテルビウム-171イオンのマルチチャネルアコースト光学変調器(aom)に基づく個別アドレッシング光学の設計と特性について述べる。 個々のアドレッシングシステムの設計パラメータは、予測されたクロストークと投影対象レンズの必要な数値開口とのトレードオフに基づいて決定された。 ターゲットビームの直径と分離は、それぞれ1.90$\mu$mと4.28$\mu$mである。 投射光学によって形成された個々のビームは、撮像センサとフィールドプローブイオンで特徴付けられる。 その結果得られた有効ビーム径と分離は、それぞれ2.34--2.36$\mu$mと4.31$\mu$mであった。

We present the design and characterization of individual addressing optics based on a multi-channel acousto-optic modulator (AOM) for trapped ytterbium-171 ions. The design parameters of the individual addressing system were determined based on the tradeoff between the expected crosstalk and the required numerical aperture of the projection objective lens. The target beam diameter and separation were 1.90 $\mu$m and 4.28 $\mu$m, respectively. The individual beams shaped by the projection optics were characterized by an imaging sensor and a field probe ion. The resulting effective beam diameters and separations were approximately 2.34--2.36 $\mu$m and 4.31 $\mu$m, respectively, owing to residual aberration.
翻訳日:2024-02-22 16:43:23 公開日:2024-02-21
# イジング・スピン・チェーンにおける相互情報の衝突

Mutual information scrambling in Ising spin chain ( http://arxiv.org/abs/2402.13558v1 )

ライセンス: Link先を確認
Surbhi Khetrapal and Emil Tore M{\ae}rsk Pedersen(参考訳) 有限長のスピンハーフ粒子の連鎖を考えると、混合場イジングハミルトニアンによって進化し、開境界条件を課す。 テンソルネットワークを用いて,N'eel状態のクエンチによる絡み合いエントロピーと相互情報の時間的進化をシミュレートする。 非可積分系に対する絡み合いエントロピーは遅くとも一定の値に飽和するが、可積分系に対しては振動が続いている。 また, 相互情報のピークは, xxz 鎖に対する \cite{alba:2019ybw} の結論と一致して, 可積分系と比較して, 区間間距離の関数としての相互情報ピークはより早く減衰することがわかった。 積分可能な場合のシミュレーションから得られる絡み合いエントロピー進化の振動と準粒子画像の解析結果を比較し,一致を求める。

We consider a chain of spin-half particles of a finite length, evolved with the mixed-field Ising Hamiltonian and impose open boundary condition. We simulate the time evolution of entanglement entropy and mutual information following quench from the N\'eel state in this system using tensor networks. We find that the entanglement entropy for non-integrable systems saturates to a constant value at late times, however it continues to oscillate for integrable systems. We also find that mutual information peaks as a function of distance between intervals decay faster for non-integrable systems compared to integrable systems, in agreement with the conclusion of \cite{Alba:2019ybw} for XXZ chains. We compare the oscillations in entanglement entropy evolution obtained from simulations in the integrable case with analytic results from quasi-particle picture and find agreement.
翻訳日:2024-02-22 16:43:09 公開日:2024-02-21
# インダクティブグラフアライメントプロンプト:スペクトルの観点からのグラフ事前学習とインダクティブ微調整のギャップを橋渡しする

Inductive Graph Alignment Prompt: Bridging the Gap between Graph Pre-training and Inductive Fine-tuning From Spectral Perspective ( http://arxiv.org/abs/2402.13556v1 )

ライセンス: Link先を確認
Yuchen Yan, Peiyan Zhang, Zheng Fang, Qingqing Long(参考訳) グラフ事前トレーニングと微調整」パラダイムは、下流タスクのマニュアルアノテーションなしで一般的な知識をキャプチャすることで、グラフニューラルネットワーク(GNN)を大幅に改善した。 しかし,事前学習段階と微調整段階の間のデータとタスクのギャップが大きいため,モデルの性能は依然として限られている。 自然言語処理(NLP)の迅速な微調整に触発された多くの試みが、グラフ領域のギャップを埋めるために行われた。 しかし、既存の方法は単に微調整タスクの形式をトレーニング済みタスクに書き換えるだけである。 事前学習グラフは微調整グラフと互換性があるという前提で、これらの方法は典型的にはトランスダクティブな設定で動作する。 微調整グラフと事前学習グラフとは大きく異なるインダクティブシナリオへのグラフ事前学習を一般化するために,インダクティブグラフアライメントプロンプト(igap)と呼ばれる新しいグラフプロンプト方式を提案する。 まず、主要なグラフ事前学習フレームワークを統合し、グラフスペクトル理論からグラフ事前学習の本質を分析する。 次に、インダクティブセッティングにおけるデータギャップの2つのソースを特定する。 (i)グラフ信号ギャップ及び (ii)グラフ構造ギャップ。 グラフ事前学習の知見に基づいて,スペクトル空間におけるグラフ信号ギャップとグラフ構造ギャップを学習可能なプロンプトでブリッジすることを提案する。 理論解析により本手法の有効性が保証される。 最後に,トランスダクティブ,セミインダクティブ,インダクティブの設定下で,ノード分類とグラフ分類タスクの広範な実験を行った。 その結果,提案手法は異なる設定下でデータギャップを橋渡しすることに成功した。

The "Graph pre-training and fine-tuning" paradigm has significantly improved Graph Neural Networks(GNNs) by capturing general knowledge without manual annotations for downstream tasks. However, due to the immense gap of data and tasks between the pre-training and fine-tuning stages, the model performance is still limited. Inspired by prompt fine-tuning in Natural Language Processing(NLP), many endeavors have been made to bridge the gap in graph domain. But existing methods simply reformulate the form of fine-tuning tasks to the pre-training ones. With the premise that the pre-training graphs are compatible with the fine-tuning ones, these methods typically operate in transductive setting. In order to generalize graph pre-training to inductive scenario where the fine-tuning graphs might significantly differ from pre-training ones, we propose a novel graph prompt based method called Inductive Graph Alignment Prompt(IGAP). Firstly, we unify the mainstream graph pre-training frameworks and analyze the essence of graph pre-training from graph spectral theory. Then we identify the two sources of the data gap in inductive setting: (i) graph signal gap and (ii) graph structure gap. Based on the insight of graph pre-training, we propose to bridge the graph signal gap and the graph structure gap with learnable prompts in the spectral space. A theoretical analysis ensures the effectiveness of our method. At last, we conduct extensive experiments among nodes classification and graph classification tasks under the transductive, semi-inductive and inductive settings. The results demonstrate that our proposed method can successfully bridge the data gap under different settings.
翻訳日:2024-02-22 16:42:53 公開日:2024-02-21
# ナラティブコンテキストのグラフ表現:ふりかえり質問によるコヒーレンス依存性

Graph Representation of Narrative Context: Coherence Dependency via Retrospective Questions ( http://arxiv.org/abs/2402.13551v1 )

ライセンス: Link先を確認
Liyan Xu, Jiangnan Li, Mo Yu, Jie Zhou(参考訳) この本は、物語の中の個々の節はしばしば孤立するよりも結合的に関連しているという観察から生まれた、物語理解のための新奇で実践的なパラダイムを紹介している。 そこで本研究では,NARCOと呼ばれる,タスクに依存しないコンテキスト全体のコヒーレンス依存性を記述したナラティブにグラフを定式化することを提案する。 特に、narcoのエッジは、2つのコンテキストスニペットがハイレベルなコヒーレントな関係を反映した自由形式の質問を包含している。 重要なのは、当社のグラフが設計した2段階のllmプロンプトを通じてインスタンス化されることです。 本稿では,その実用性について,再カプセル識別によるエッジの有効性,プロット検索によるローカルコンテキスト拡張,長期文書QAで実証された広範なアプリケーションについて検討する。 実験の結果,NARCOを活用することで,3つのタスクにまたがって性能が向上することが示唆された。

This work introduces a novel and practical paradigm for narrative comprehension, stemming from the observation that individual passages within narratives are often cohesively related than being isolated. We therefore propose to formulate a graph upon narratives dubbed NARCO that depicts a task-agnostic coherence dependency of the entire context. Especially, edges in NARCO encompass retrospective free-form questions between two context snippets reflecting high-level coherent relations, inspired by the cognitive perception of humans who constantly reinstate relevant events from prior context. Importantly, our graph is instantiated through our designed two-stage LLM prompting, thereby without reliance on human annotations. We present three unique studies on its practical utility, examining the edge efficacy via recap identification, local context augmentation via plot retrieval, and broader applications exemplified by long document QA. Experiments suggest that our approaches leveraging NARCO yield performance boost across all three tasks.
翻訳日:2024-02-22 16:42:23 公開日:2024-02-21
# LLMは効果的な交渉者か? 交渉対話におけるLLMの多面的能力の体系的評価

Are LLMs Effective Negotiators? Systematic Evaluation of the Multifaceted Capabilities of LLMs in Negotiation Dialogues ( http://arxiv.org/abs/2402.13550v1 )

ライセンス: Link先を確認
Deuksin Kwon, Emily Weiss, Tara Kulshrestha, Kushal Chawla, Gale M. Lucas, Jonathan Gratch(参考訳) 交渉が成功すれば、会話のコンテキストの深い理解、パートナーのモチベーションを推測するための理論・オブ・ミンド(ToM)スキル、戦略的推論と効果的なコミュニケーションが要求される。 本研究は,多種多様なNLPタスクにおけるLLMの顕著な性能を考慮し,対話システムの設計から教育的フィードバックの提供,データ収集プラクティスのスケールアップに至るまで,LLMが交渉研究のさまざまな側面をどのように進めるかを理解することを目的とする。 そこで本研究では,LLMの多面的機能解析手法を,典型的な対話のすべての段階をカバーする多様な対話シナリオに適用する。 我々の分析は、様々なタスクにまたがる GPT-4 の優位性を示す証拠を増やしつつ、LSM にとって困難な特定のタスクに関する洞察を与えている。 例えば、交渉対話に関する主観的な評価を行うとき、モデルは人間のプレイヤーと相関が悪く、しばしば文脈的に適切であり、戦略的に有利な応答を生成するのに苦労する。

A successful negotiation demands a deep comprehension of the conversation context, Theory-of-Mind (ToM) skills to infer the partner's motives, as well as strategic reasoning and effective communication, making it challenging for automated systems. Given the remarkable performance of LLMs across a variety of NLP tasks, in this work, we aim to understand how LLMs can advance different aspects of negotiation research, ranging from designing dialogue systems to providing pedagogical feedback and scaling up data collection practices. To this end, we devise a methodology to analyze the multifaceted capabilities of LLMs across diverse dialogue scenarios covering all the time stages of a typical negotiation interaction. Our analysis adds to the increasing evidence for the superiority of GPT-4 across various tasks while also providing insights into specific tasks that remain difficult for LLMs. For instance, the models correlate poorly with human players when making subjective assessments about the negotiation dialogues and often struggle to generate responses that are contextually appropriate as well as strategically advantageous.
翻訳日:2024-02-22 16:42:03 公開日:2024-02-21
# CODIS:マルチモーダル大規模言語モデルのためのコンテキスト依存ビジュアル理解のベンチマーク

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2402.13607v1 )

ライセンス: Link先を確認
Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu(参考訳) マルチモーダル大規模言語モデル(mllm)は、視覚と言語を組み合わせた様々なタスクで有望な結果を示している。 これらのモデルが研究やアプリケーションにとってより不可欠なものになるにつれて、その能力の包括的な評価を行うことがますます重要になっている。 しかし、既存のベンチマークのほとんどは、特定の状況では、画像がより広い文脈で解釈される必要があることを考慮していない。 本研究では,自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために,CODISと呼ばれる新しいベンチマークを導入する。 以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。 さらなる分析により、これらのモデルが、画像の理解を改善するために文脈情報を効果的に抽出し、利用するのに苦労していることが確認される。 これにより、MLLMが視覚を文脈依存的に理解する能力を高める必要性が高まっている。 プロジェクトのWebサイトはhttps://thunlp-mt.github.io/CODIS.com。

Multimodal large language models (MLLMs) have demonstrated promising results in a variety of tasks that combine vision and language. As these models become more integral to research and applications, conducting comprehensive evaluations of their capabilities has grown increasingly important. However, most existing benchmarks fail to consider that, in certain situations, images need to be interpreted within a broader context. In this work, we introduce a new benchmark, named as CODIS, designed to assess the ability of models to use context provided in free-form text to enhance visual comprehension. Our findings indicate that MLLMs consistently fall short of human performance on this benchmark. Further analysis confirms that these models struggle to effectively extract and utilize contextual information to improve their understanding of images. This underscores the pressing need to enhance the ability of MLLMs to comprehend visuals in a context-dependent manner. View our project website at https://thunlp-mt.github.io/CODIS.
翻訳日:2024-02-22 16:34:50 公開日:2024-02-21
# 大規模言語モデルの多言語信頼度推定に関する総合的研究

A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models ( http://arxiv.org/abs/2402.13606v1 )

ライセンス: Link先を確認
Boyang Xue, Hongru Wang, Weichao Wang, Rui Wang, Sheng Wang, Zeming Liu, Kam-Fai Wong(参考訳) 大きな言語モデルが幻覚を発生させ、予測に自信過剰を示す傾向は、その信頼性に関する懸念を引き起こす。 モデル応答の信頼性の程度を示す信頼性または不確実性の推定は、信頼できるAIシステムの開発に不可欠である。 現在の研究は、英語におけるLLMの信頼度の推定に重点を置いており、他の広く使われている言語では空白のままであり、信頼性の高いAIアプリケーションのグローバルな開発を妨げる。 本稿では,LLMにおける多言語信頼度推定(MlingConf)の包括的検討を紹介する。 まず、詳細な専門家による多言語QAデータセットを紹介する。 第2に,信頼度推定の性能を考察し,これらの信頼度スコアが,多様な言語間の自己定義を通じてllm性能をいかに向上させるかを検討する。 最後に,より正確な信頼度を求めるための言語間信頼度推定手法を提案する。 実験の結果,異なる言語間における様々な信頼度推定手法の性能を示すとともに,提案手法が信頼度推定を大幅に向上させ,複数のベースライン法を上回ることを示した。

The tendency of Large Language Models to generate hallucinations and exhibit overconfidence in predictions raises concerns regarding their reliability. Confidence or uncertainty estimations indicating the extent of trustworthiness of a model's response are essential to developing reliable AI systems. Current research primarily focuses on LLM confidence estimations in English, remaining a void for other widely used languages and impeding the global development of reliable AI applications. This paper introduces a comprehensive investigation of Multi-lingual confidence estimation (MlingConf) on LLMs. First, we introduce an elaborated and expert-checked multilingual QA dataset. Second, we delve into the performance of confidence estimations and examine how these confidence scores can enhance LLM performance through self-refinement across diverse languages. Finally, we propose a cross-lingual confidence estimation method to achieve more precise confidence scores. The experimental results showcase the performance of various confidence estimation methods across different languages as well as present that our proposed cross-lingual confidence estimation technique significantly enhances confidence estimation and outperforms several baseline methods.
翻訳日:2024-02-22 16:34:34 公開日:2024-02-21
# kornat:韓国社会価値観と共通知識のllmアライメントベンチマーク

KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge ( http://arxiv.org/abs/2402.13605v1 )

ライセンス: Link先を確認
Jiyoung Lee, Minwoo Kim, Seungho Kim, Junghwan Kim, Seunghyun Won, Hwaran Lee, Edward Choi(参考訳) 大きな言語モデル(LLM)が特定の国に効果的に展開されるためには、その国の文化と基本的な知識を理解する必要がある。 この目的のために,社会価値アライメントと共通知識アライメントという2つの側面から,LLMと対象国間のアライメントを測定する全国アライメントを導入する。 社会的価値のアライメントは、モデルがいかに国家固有の社会的価値を理解するかを評価する一方、共通の知識のアライメントは、モデルが国家に関連する基本的な知識をいかに捉えるかを調べる。 韓国との国交を計測する最初の指標であるkornatを構築した。 ソーシャルバリューデータセットについては,6,174名の韓国人参加者を対象とした大規模調査から根拠真理ラベルを得た。 共通知識データセットについて,韓国の教科書とGED参照資料に基づくサンプルを構築した。 KorNATには、それぞれ社会的価値と共通知識に関する4Kと6Kの多重選択質問が含まれている。 我々のデータセット作成プロセスは、統計的サンプリング理論に基づいて慎重に設計され、複数ラウンドの人間レビューを通して洗練されている。 7つのLLM実験の結果, 基準値に適合するモデルはごくわずかであり, さらなる拡張の可能性を示した。 kornatは、データセットの品質評価を専門とする政府関連機関による評価に合格し、政府の承認を得た。 我々のデータセットのサンプルと詳細な評価プロトコルは \url{https://selectstar.ai/ko/papers-national-alignment#} で見ることができる。

For Large Language Models (LLMs) to be effectively deployed in a specific country, they must possess an understanding of the nation's culture and basic knowledge. To this end, we introduce National Alignment, which measures an alignment between an LLM and a targeted country from two aspects: social value alignment and common knowledge alignment. Social value alignment evaluates how well the model understands nation-specific social values, while common knowledge alignment examines how well the model captures basic knowledge related to the nation. We constructed KorNAT, the first benchmark that measures national alignment with South Korea. For the social value dataset, we obtained ground truth labels from a large-scale survey involving 6,174 unique Korean participants. For the common knowledge dataset, we constructed samples based on Korean textbooks and GED reference materials. KorNAT contains 4K and 6K multiple-choice questions for social value and common knowledge, respectively. Our dataset creation process is meticulously designed and based on statistical sampling theory and was refined through multiple rounds of human review. The experiment results of seven LLMs reveal that only a few models met our reference score, indicating a potential for further enhancement. KorNAT has received government approval after passing an assessment conducted by a government-affiliated organization dedicated to evaluating dataset quality. Samples and detailed evaluation protocols of our dataset can be found in \url{https://selectstar.ai/ko/papers-national-alignment#}
翻訳日:2024-02-22 16:34:18 公開日:2024-02-21
# HISCOバリアを破る:OccCanineによる自動作業標準化

Breaking the HISCO Barrier: Automatic Occupational Standardization with OccCANINE ( http://arxiv.org/abs/2402.13604v1 )

ライセンス: Link先を確認
Christian M{\o}ller Dahl, Christian Vedel(参考訳) 本稿では,職業記述をHISCO分類システムに自動変換する新しいツールOccCANINEを提案する。 作業記述の処理と分類に関わる手作業は、エラーを起こしやすく、退屈で、時間がかかる。 既存の言語モデル(CANINE)を精査し、それを自動で実行し、これまで何日も何週間もかかった数秒と数分で実行します。 このモデルは、22の異なるソースから提供された13の言語で、1400万対の職業記述とHISCOコードに基づいて訓練されている。 私たちのアプローチは精度、リコール、精度が90%以上であることが示されています。 我々のツールは比喩障壁を破り、このデータを経済、経済史、および様々な関連分野に広く適用可能な職業構造の分析に容易に利用できるようにする。

This paper introduces a new tool, OccCANINE, to automatically transform occupational descriptions into the HISCO classification system. The manual work involved in processing and classifying occupational descriptions is error-prone, tedious, and time-consuming. We finetune a preexisting language model (CANINE) to do this automatically thereby performing in seconds and minutes what previously took days and weeks. The model is trained on 14 million pairs of occupational descriptions and HISCO codes in 13 different languages contributed by 22 different sources. Our approach is shown to have accuracy, recall and precision above 90 percent. Our tool breaks the metaphorical HISCO barrier and makes this data readily available for analysis of occupational structures with broad applicability in economics, economic history and various related disciplines.
翻訳日:2024-02-22 16:33:56 公開日:2024-02-21
# 自動車運転のための大規模言語モデルに基づくハイブリッド推論

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving ( http://arxiv.org/abs/2402.13602v1 )

ライセンス: Link先を確認
Mehdi Azarafza, Mojtaba Nayyeri, Charles Steinmetz, Steffen Staab, Achim Rettberg(参考訳) 大きな言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力に対して、大きな注目を集めている。 しかし、この高度な推論を自然言語テキストと組み合わせて、動的状況における意思決定を一般化する能力は、さらなる探索を必要とする。 本研究では,LLMが算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおいてどの程度うまく適応できるかを考察する。 LLMのハイブリッド推論能力は、検出された物体やセンサデータを分析し、運転規則や物理法則を理解し、追加のコンテキストを提供することによって、自律運転を改善することができると仮定する。 これは、(天候条件による)視認性の低い意思決定のような複雑なシナリオに対処します。 我々は,CARLA内の人間生成の真実と比較し,その精度に基づいてLarge Language Models(LLMs)を評価した。 その結果、LLMに画像(検出対象物)とセンサーデータを組み合わせると、様々な天候条件下での自動運転車のブレーキやスロットル制御の正確な情報が得られることがわかった。 この定式化と回答は自動操縦システムの意思決定に役立つ。

Large Language Models (LLMs) have garnered significant attention for their ability to understand text and images, generate human-like text, and perform complex reasoning tasks. However, their ability to generalize this advanced reasoning with a combination of natural language text for decision-making in dynamic situations requires further exploration. In this study, we investigate how well LLMs can adapt and apply a combination of arithmetic and common-sense reasoning, particularly in autonomous driving scenarios. We hypothesize that LLMs hybrid reasoning abilities can improve autonomous driving by enabling them to analyze detected object and sensor data, understand driving regulations and physical laws, and offer additional context. This addresses complex scenarios, like decisions in low visibility (due to weather conditions), where traditional methods might fall short. We evaluated Large Language Models (LLMs) based on accuracy by comparing their answers with human-generated ground truth inside CARLA. The results showed that when a combination of images (detected objects) and sensor data is fed into the LLM, it can offer precise information for brake and throttle control in autonomous vehicles across various weather conditions. This formulation and answers can assist in decision-making for auto-pilot systems.
翻訳日:2024-02-22 16:33:45 公開日:2024-02-21
# User-LLM: ユーザ埋め込みによる効率的なLLMコンテキスト化

User-LLM: Efficient LLM Contextualization with User Embeddings ( http://arxiv.org/abs/2402.13598v1 )

ライセンス: Link先を確認
Lin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O'Banion, Jun Xie(参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらした。 しかし、複雑で潜在的に騒がしいユーザーインタラクションデータを効果的に組み込むことは課題である。 そこで我々は,LLMのコンテキスト化にユーザ埋め込みを活用する新しいフレームワークであるUser-LLMを提案する。 これらの埋め込みは、自己教師付き事前学習による多様なユーザーインタラクションから抽出され、潜在ユーザの好みとその時間的変化をキャプチャする。 これらのユーザ埋め込みを,ユーザコンテキストに動的に適応できるように,クロスアテンションとソフトプロンプトを通じてLLMと統合する。 movielens、amazon review、およびgoogle local reviewデータセットに関する包括的な実験は、さまざまなタスクで著しいパフォーマンス向上を示している。 特に,計算効率の面では,長いシーケンスタスクや深いユーザ理解を必要とするタスクにおいて,テキストプロンプトに基づくコンテキスト化よりも優れています。 さらに、Perceiverレイヤを組み込んで、ユーザエンコーダとLLMの統合を効率化し、計算要求を減らす。

Large language models (LLMs) have revolutionized natural language processing. However, effectively incorporating complex and potentially noisy user interaction data remains a challenge. To address this, we propose User-LLM, a novel framework that leverages user embeddings to contextualize LLMs. These embeddings, distilled from diverse user interactions using self-supervised pretraining, capture latent user preferences and their evolution over time. We integrate these user embeddings with LLMs through cross-attention and soft-prompting, enabling LLMs to dynamically adapt to user context. Our comprehensive experiments on MovieLens, Amazon Review, and Google Local Review datasets demonstrate significant performance gains across various tasks. Notably, our approach outperforms text-prompt-based contextualization on long sequence tasks and tasks that require deep user understanding while being computationally efficient. We further incorporate Perceiver layers to streamline the integration between user encoders and LLMs, reducing computational demands.
翻訳日:2024-02-22 16:33:24 公開日:2024-02-21
# 低次元k平均クラスタリング問題をグローバルに解くための切削面アルゴリズム

A cutting plane algorithm for globally solving low dimensional k-means clustering problems ( http://arxiv.org/abs/2402.13595v1 )

ライセンス: Link先を確認
Martin Ryner, Jan Kronqvist, Johan Karlsson(参考訳) クラスタリングはデータサイエンスと機械学習の最も基本的なツールの1つであり、k平均クラスタリングはそのような方法の最も一般的な1つである。 k-平均問題には様々な近似アルゴリズムが存在するが、グローバル最適解の計算は一般にnp-hardである。 本稿では,低次元データを持つ場合のk-means問題について考察し,構造化凹代入問題として定式化する。 これにより、複数のクラスタを持つ大規模データセットに対して、低次元構造を利用し、妥当な時間内にグローバルな最適性への問題を解くことができる。 本手法は,小さな凹面問題と大規模な線形プログラミング問題を反復的に解くことに基づく。 これにより、ゼロ最適性ギャップに収束することを示す境界とともに、実現可能な解の列が与えられる。 本論文は,グローバル最適化理論の手法を組み合わせて手順を高速化し,その性能に関する数値的な結果を提供する。

Clustering is one of the most fundamental tools in data science and machine learning, and k-means clustering is one of the most common such methods. There is a variety of approximate algorithms for the k-means problem, but computing the globally optimal solution is in general NP-hard. In this paper we consider the k-means problem for instances with low dimensional data and formulate it as a structured concave assignment problem. This allows us to exploit the low dimensional structure and solve the problem to global optimality within reasonable time for large data sets with several clusters. The method builds on iteratively solving a small concave problem and a large linear programming problem. This gives a sequence of feasible solutions along with bounds which we show converges to zero optimality gap. The paper combines methods from global optimization theory to accelerate the procedure, and we provide numerical results on their performance.
翻訳日:2024-02-22 16:33:06 公開日:2024-02-21
# 知識グラフによる大規模言語モデル編集

Knowledge Graph Enhanced Large Language Model Editing ( http://arxiv.org/abs/2402.13593v1 )

ライセンス: Link先を確認
Mengqi Zhang, Xiaotian Ye, Qiang Liu, Pengjie Ren, Shu Wu, Zhumin Chen(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの進行において重要であるが、その有効性は不正確さと時代遅れの知識によって妨げられている。 モデル編集はこれらの課題に対処するための有望な解決策として現れます。 しかし,既存の編集手法では,編集に伴う知識の変化の追跡と組み入れに苦慮しており,編集知識の処理において,ポストトLLMの一般化能力を制限している。 そこで本研究では, 知識グラフを活用し, llm編集能力を向上させる新しいモデル編集手法, glameを提案する。 具体的には、まず知識グラフ拡張モジュールを使用して、編集によって変化した関連する知識を明らかにし、LLMの内部表現を取得する。 このアプローチにより、LLM内の知識変化は外部グラフ構造を通して反映される。 次に,構造化知識をモデル編集に統合するグラフベースの知識編集モジュールを設計する。 これにより、更新されたパラメータは、編集された知識の変更だけでなく、編集プロセスによる他の関連する知識の変化も反映される。 GPT-J と GPT-2 XL の総合的な実験により,GLAME は編集知識を用いた後 LLM の一般化能力を大幅に向上することが示された。

Large language models (LLMs) are pivotal in advancing natural language processing (NLP) tasks, yet their efficacy is hampered by inaccuracies and outdated knowledge. Model editing emerges as a promising solution to address these challenges. However, existing editing methods struggle to track and incorporate changes in knowledge associated with edits, which limits the generalization ability of postedit LLMs in processing edited knowledge. To tackle these problems, we propose a novel model editing method that leverages knowledge graphs for enhancing LLM editing, namely GLAME. Specifically, we first utilize a knowledge graph augmentation module to uncover associated knowledge that has changed due to editing, obtaining its internal representations within LLMs. This approach allows knowledge alterations within LLMs to be reflected through an external graph structure. Subsequently, we design a graph-based knowledge edit module to integrate structured knowledge into the model editing. This ensures that the updated parameters reflect not only the modifications of the edited knowledge but also the changes in other associated knowledge resulting from the editing process. Comprehensive experiments conducted on GPT-J and GPT-2 XL demonstrate that GLAME significantly improves the generalization capabilities of post-edit LLMs in employing edited knowledge.
翻訳日:2024-02-22 16:32:52 公開日:2024-02-21
# ナノグラフェン系スピン-1/2交互交換ハイゼンベルク鎖の可変位相

Tunable topological phases in nanographene-based spin-1/2 alternating-exchange Heisenberg chains ( http://arxiv.org/abs/2402.13590v1 )

ライセンス: Link先を確認
Chenxiao Zhao, Gon\c{c}alo Catarina, Jin-Jiang Zhang, Jo\~ao C. G. Henriques, Lin Yang, Ji Ma, Xinliang Feng, Oliver Gr\"oning, Pascal Ruffieux, Joaqu\'in Fern\'andez-Rossier, Roman Fasel(参考訳) 多体スピン系のトポロジカル秩序のポテンシャルを解き放つことは、長い間、量子物質の領域における中心的な追求であった。 広範囲にわたる努力にもかかわらず、様々なトポロジーフェーズのチューニングと探索に不可欠な、サイト選択的なスピン操作を可能にする多用途プラットフォームの探求が続いている。 ここでは,スピン1/2の交互交換ハイゼンベルク(ah)鎖と反強磁性カップリングであるj_1$とy_j_2$を,2つの反強磁性結合不対電子をホストするナノグラフェンを共有結合させることで構成する。 走査型トンネル顕微鏡を用いて,スピン鎖長,パリティ,交換結合終端の原子スケール制御を行い,非弾性トンネル分光法を用いて磁気応答を調べる。 本研究はトリップロンs[3]として知られる鎖のバルク励起のガッピング性を確認する。 さらに、トンネルスペクトル振幅の空間的変動からトリトン分散関係を抽出することに成功した。 さらに, 鎖のパリティと終端に依存して, 熱力学的極限1, 2, 2, 4の異なる位相基底状態の縮退を決定できるような, ギャップ内$S=1/2$エッジスピンの様々な数の観測を行う。 これらのエッジスピン間の相互作用を監視することにより、スピン相関の指数的減衰を同定する。 理論的計算によって裏付けられた実験結果から, スピンベースの量子デバイス開発に向けた有望な道を開く相制御多体プラットフォームが提示された。

Unlocking the potential of topological order within many-body spin systems has long been a central pursuit in the realm of quantum materials. Despite extensive efforts, the quest for a versatile platform enabling site-selective spin manipulation, essential for tuning and probing diverse topological phases, has persisted. Here, we utilize on-surface synthesis to construct spin-1/2 alternating-exchange Heisenberg (AH) chains[1] with antiferromagnetic couplings $J_1$ and $J_2$ by covalently linking Clar's goblets -- nanographenes each hosting two antiferromagnetically-coupled unpaired electrons[2]. Utilizing scanning tunneling microscopy, we exert atomic-scale control over the spin chain lengths, parities and exchange-coupling terminations, and probe their magnetic response by means of inelastic tunneling spectroscopy. Our investigation confirms the gapped nature of bulk excitations in the chains, known as triplons[3]. Besides, the triplon dispersion relation is successfully extracted from the spatial variation of tunneling spectral amplitudes. Furthermore, depending on the parity and termination of chains, we observe varying numbers of in-gap $S=1/2$ edge spins, enabling the determination of the degeneracy of distinct topological ground states in the thermodynamic limit-either 1, 2, or 4. By monitoring interactions between these edge spins, we identify the exponential decay of spin correlations. Our experimental findings, corroborated by theoretical calculations, present a phase-controlled many-body platform, opening promising avenues toward the development of spin-based quantum devices.
翻訳日:2024-02-22 16:32:32 公開日:2024-02-21
# Eコマース製品記述生成のためのマルチモーダルインコンテキストチューニング手法

A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation ( http://arxiv.org/abs/2402.13587v1 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Wenhan Luo, Lin Ma, Yuxin Ding, Min Zhang(参考訳) 本稿では,マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。 視覚情報とテキスト情報の組み合わせを活用して、製品のユニークな特徴に合わせた説明を生成する。 この設定のために、以前の手法では視覚的およびテキスト的エンコーダを使用して画像とキーワードをエンコードし、言語モデルに基づくデコーダを使用して製品記述を生成する。 しかし、生成した記述はしばしば不正確であり、同じカテゴリの製品も同様のコピーライティングを持ち、大規模なサンプルに対する全体的なフレームワークを最適化することで、モデルは一般的な単語に集中するが、製品の特徴を無視する。 この問題を軽減するために, ModICT というシンプルなマルチモーダル・インコンテキスト・チューニング手法を提案し, 類似した製品サンプルを参照として導入し, 言語モデルのインコンテキスト学習機能を用いて記述を生成する。 トレーニング中、私たちはビジュアルエンコーダと言語モデルを凍結し続け、マルチモーダルなインコンテキスト参照と動的プロンプトを作成するモジュールの最適化に重点を置いています。 このアプローチは、大きな言語モデル(LLM)の言語生成能力を保ち、記述の多様性を大幅に向上させる。 様々な言語モデルスケールとタイプにおけるModICTの有効性を評価するため,Eコマース領域内の3つの異なる製品カテゴリからデータを収集した。 広範な実験により、modictは生成した結果の精度(ルージュlでは最大3.3%)と多様性(d-5では最大9.4%)を従来の方法と比較して大幅に改善することが示されている。 当社の調査結果は,幅広いアプリケーションで製品記述の自動生成を促進する貴重なツールとしてのmodictの可能性を強調している。

In this paper, we propose a new setting for generating product descriptions from images, augmented by marketing keywords. It leverages the combined power of visual and textual information to create descriptions that are more tailored to the unique features of products. For this setting, previous methods utilize visual and textual encoders to encode the image and keywords and employ a language model-based decoder to generate the product description. However, the generated description is often inaccurate and generic since same-category products have similar copy-writings, and optimizing the overall framework on large-scale samples makes models concentrate on common words yet ignore the product features. To alleviate the issue, we present a simple and effective Multimodal In-Context Tuning approach, named ModICT, which introduces a similar product sample as the reference and utilizes the in-context learning capability of language models to produce the description. During training, we keep the visual encoder and language model frozen, focusing on optimizing the modules responsible for creating multimodal in-context references and dynamic prompts. This approach preserves the language generation prowess of large language models (LLMs), facilitating a substantial increase in description diversity. To assess the effectiveness of ModICT across various language model scales and types, we collect data from three distinct product categories within the E-commerce domain. Extensive experiments demonstrate that ModICT significantly improves the accuracy (by up to 3.3% on Rouge-L) and diversity (by up to 9.4% on D-5) of generated results compared to conventional methods. Our findings underscore the potential of ModICT as a valuable tool for enhancing automatic generation of product descriptions in a wide range of applications.
翻訳日:2024-02-22 16:32:06 公開日:2024-02-21
# WinoViz: 異なる状態下でのオブジェクトの視覚特性の探索

WinoViz: Probing Visual Properties of Objects Under Different States ( http://arxiv.org/abs/2402.13584v1 )

ライセンス: Link先を確認
Woojeong Jin, Tejas Srinivasan, Jesse Thomason, Xiang Ren(参考訳) 人間は特定の文脈に基づいて物体の異なる視覚特性を理解し理解する。 例えば、バナナは「腐った」と茶色になるのに対して、「熟していない」と緑に見える。 視覚コモンセンス知識の探索に関する従来の研究は、主に言語モデルによる物体の典型的特性(色や形)の理解に焦点を当ててきた。 テキストのみの評価データセットであるWinoVizについて,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する1,380の例からなる。 我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。 また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。 実験の結果は以下のとおりです a) gpt-4のような大規模言語モデルは、効果的な性能を示すが、マルチホップデータに関しては、その性能が著しく低下する。 b) 大規模モデルは実用的推論ではうまく機能するが,視覚知識推論はタスクのボトルネックである。 c) ビジョン言語モデルは、言語モデルに匹敵する。 d) 機械生成画像を用いたモデルでは, 作業が不十分である。 これは生成された画像の質が悪いためである。

Humans perceive and comprehend different visual properties of an object based on specific contexts. For instance, we know that a banana turns brown ``when it becomes rotten,'' whereas it appears green ``when it is unripe.'' Previous studies on probing visual commonsense knowledge have primarily focused on examining language models' understanding of typical properties (e.g., colors and shapes) of objects. We present WinoViz, a text-only evaluation dataset, consisting of 1,380 examples that probe the reasoning abilities of language models regarding variant visual properties of objects under different contexts or states. Our task is challenging since it requires pragmatic reasoning (finding intended meanings) and visual knowledge reasoning. We also present multi-hop data, a more challenging version of our data, which requires multi-step reasoning chains to solve our task. In our experimental analysis, our findings are: a) Large language models such as GPT-4 demonstrate effective performance, but when it comes to multi-hop data, their performance is significantly degraded. b) Large models perform well on pragmatic reasoning, but visual knowledge reasoning is a bottleneck in our task. c) Vision-language models outperform their language-model counterparts. d) A model with machine-generated images performs poorly in our task. This is due to the poor quality of the generated images.
翻訳日:2024-02-22 16:31:34 公開日:2024-02-21
# longwanjuan: 長文品質の体系的測定に向けて

LongWanjuan: Towards Systematic Measurement for Long Text Quality ( http://arxiv.org/abs/2402.13583v1 )

ライセンス: Link先を確認
Kai Lv, Xiaoran Liu, Qipeng Guo, Hang Yan, Conghui He, Xipeng Qiu and Dahua Lin(参考訳) 基礎モデルの長文能力を高めるためには,トレーニングデータの質が不可欠である。 データの多様性と難易度に基づいたヒューリスティックなルールと評価を通じてデータ品質を洗練しようとする既存の取り組みにもかかわらず、長いテキストを評価するために特別に調整された体系的なアプローチが欠如している。 このギャップに対処するため,本研究は,コヒーレンス,コヒーレンス,複雑性という3つの基本的な言語次元を評価することにより,長文の品質を体系的に測定する。 上記の3次元から着想を得て,統計モデルと事前学習した言語モデルを基にした長文の品質評価を行うためのメトリクススイートを提案する。 これらのメトリクスを活用することで、160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたバイリンガルデータセットであるLongWanjuanを提示する。 longwanjuanでは、長いテキストを全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。 さらに,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。 コードとデータセットはhttps://github.com/openlmlab/longwanjuanで入手できる。

The quality of training data are crucial for enhancing the long-text capabilities of foundation models. Despite existing efforts to refine data quality through heuristic rules and evaluations based on data diversity and difficulty, there's a lack of systematic approaches specifically tailored for assessing long texts. Addressing this gap, our work systematically measures the quality of long texts by evaluating three fundamental linguistic dimensions: coherence, cohesion, and complexity. Drawing inspiration from the aforementioned three dimensions, we introduce a suite of metrics designed to evaluate the quality of long texts, encompassing both statistical and pre-trained language model-based ones. Leveraging these metrics, we present LongWanjuan, a bilingual dataset specifically tailored to enhance the training of language models for long-text tasks with over 160B tokens. In LongWanjuan, we categorize long texts into holistic, aggregated, and chaotic types, enabling a detailed analysis of long-text quality. Furthermore, we devise a data mixture recipe that strategically balances different types of long texts within LongWanjuan, leading to significant improvements in model performance on long-text tasks. The code and dataset are available at https://github.com/OpenLMLab/LongWanjuan.
翻訳日:2024-02-22 16:31:13 公開日:2024-02-21
# 深層強化学習と行動規制によるガンダンのゲーム習得

Mastering the Game of Guandan with Deep Reinforcement Learning and Behavior Regulating ( http://arxiv.org/abs/2402.13582v1 )

ライセンス: Link先を確認
Yifan Yanggong, Hao Pan, Lei Wang(参考訳) ゲームは現実の単純化されたモデルであり、しばしば人工知能(AI)研究の好ましいプラットフォームとして機能する。 研究の多くは、ゲームプレイングエージェントとその意思決定プロセスに関するものだ。 グアンダンゲーム(英語: game of guandan)は、プロの人間の選手でさえ、時に正しい決定を下すのに苦労するチャレンジゲームである。 本稿では,モンテカルロ法とディープニューラルネットワークを用いたAIエージェントのためのフレームワークGuanZeroを提案する。 本論文の主な貢献は,ニューラルネットワーク符号化方式を用いてエージェントの動作を制御することである。 次に,最先端手法との比較により,提案フレームワークの有効性を実証する。

Games are a simplified model of reality and often serve as a favored platform for Artificial Intelligence (AI) research. Much of the research is concerned with game-playing agents and their decision making processes. The game of Guandan (literally, "throwing eggs") is a challenging game where even professional human players struggle to make the right decision at times. In this paper we propose a framework named GuanZero for AI agents to master this game using Monte-Carlo methods and deep neural networks. The main contribution of this paper is about regulating agents' behavior through a carefully designed neural network encoding scheme. We then demonstrate the effectiveness of the proposed framework by comparing it with state-of-the-art approaches.
翻訳日:2024-02-22 16:30:51 公開日:2024-02-21
# 深度補完のためのクラスタリングによる画素ワイド連続深度表現の学習

Learning Pixel-wise Continuous Depth Representation via Clustering for Depth Completion ( http://arxiv.org/abs/2402.13579v1 )

ライセンス: Link先を確認
Chen Shenglun, Zhang Hong, Ma XinZhu, Wang Zhihui, Li Haojie(参考訳) 深さの完成はコンピュータビジョンにおける長年の課題であり、分類に基づく手法が近年大きく進歩している。 しかし、既存の分類に基づく手法の多くは、深度カテゴリとして予め定義されたピクセル共有および離散深度値に依存する。 この表現は、実深度分布に準拠した連続深さ値の取り込みに失敗し、境界領域における深さのスメアに繋がる。 この問題に対処するため,我々はクラスタリングの観点から奥行きの完全性を再検討し,ピクセル単位と連続的な奥行き表現の学習に焦点を当てたcludeと呼ばれる新しいクラスタリングベースのフレームワークを提案する。 CluDeの鍵となる考え方は、実際の深度分布によって駆動される画素共有と離散深度表現を、対応する画素単位と連続したピクセルに反復的に更新することである。 具体的には、cludeはまず深度値クラスタリングを使用して深度中心のセットを深さ表現として学習する。 これらの深度中心はピクセル共有であり離散的であるが、事前定義された深度カテゴリよりも実際の深さ分布と一致している。 そして、CluDeはこれらの深度中心のオフセットを推定し、深度分布の深さ軸に沿って動的に調整し、ピクセル単位で連続的な深度表現を生成する。 広汎な実験により、CluDeは画素ワイドおよび連続深度表現を利用して物体境界付近の深度スミアリングをうまく低減することを示した。 さらに、CluDeはVOIDデータセットの最先端のパフォーマンスを達成し、KITTIデータセットの分類ベースの手法よりも優れています。

Depth completion is a long-standing challenge in computer vision, where classification-based methods have made tremendous progress in recent years. However, most existing classification-based methods rely on pre-defined pixel-shared and discrete depth values as depth categories. This representation fails to capture the continuous depth values that conform to the real depth distribution, leading to depth smearing in boundary regions. To address this issue, we revisit depth completion from the clustering perspective and propose a novel clustering-based framework called CluDe which focuses on learning the pixel-wise and continuous depth representation. The key idea of CluDe is to iteratively update the pixel-shared and discrete depth representation to its corresponding pixel-wise and continuous counterpart, driven by the real depth distribution. Specifically, CluDe first utilizes depth value clustering to learn a set of depth centers as the depth representation. While these depth centers are pixel-shared and discrete, they are more in line with the real depth distribution compared to pre-defined depth categories. Then, CluDe estimates offsets for these depth centers, enabling their dynamic adjustment along the depth axis of the depth distribution to generate the pixel-wise and continuous depth representation. Extensive experiments demonstrate that CluDe successfully reduces depth smearing around object boundaries by utilizing pixel-wise and continuous depth representation. Furthermore, CluDe achieves state-of-the-art performance on the VOID datasets and outperforms classification-based methods on the KITTI dataset.
翻訳日:2024-02-22 16:30:39 公開日:2024-02-21
# transgop:transformerベースの視線物体予測

TransGOP: Transformer-Based Gaze Object Prediction ( http://arxiv.org/abs/2402.13578v1 )

ライセンス: Link先を確認
Binglu Wang, Chenxi Guo, Yang Jin, Haisheng Xia, Nian Liu(参考訳) gaze object predictionは、人間が見ているオブジェクトの位置とカテゴリを予測することを目的としている。 以前の視線物体予測は、cnnベースの物体検出器を使用して物体の位置を予測している。 しかし, トランスフォーマーを用いた物体検出装置は, より正確な物体位置を予測できることがわかった。 さらに、トランスフォーマーの長距離モデリング能力は、GOPタスクにおいて重要な人間の頭と視線オブジェクトの関係を構築するのに役立つ。 そこで本稿では,Transformerを視線オブジェクト予測の分野に導入し,エンドツーエンドの視線オブジェクト予測手法であるTransGOPを提案する。 具体的には、TransGOPは市販のTransformerベースのオブジェクト検出器を使用して物体の位置を検知し、Transformerベースの視線オートエンコーダを視線回帰器に設計し、長距離視線関係を確立する。 さらに,視線ヒートマップ回帰を改善するために,視線オートエンコーダの問合せが物体検出器から大域的メモリ位置知識を学習するオブジェクトツーガゼクロスアテンション機構を提案する。 最後に, フレームワーク全体をエンドツーエンドでトレーニングするために, 視線検出器と視線調整器を協調的に最適化するために, 視線対象の箱内の視線ヒートマップエネルギーを高めることにより, 視線ボックスロスを提案する。 GOO-Synth と GOO-Real のデータセットに対する大規模な実験により、我々のTransGOP が全てのトラック、すなわちオブジェクト検出、視線推定、視線オブジェクト予測の最先端性能を達成することを示した。 私たちのコードはhttps://github.com/chenxi-guo/transgop.gitで利用可能です。

Gaze object prediction aims to predict the location and category of the object that is watched by a human. Previous gaze object prediction works use CNN-based object detectors to predict the object's location. However, we find that Transformer-based object detectors can predict more accurate object location for dense objects in retail scenarios. Moreover, the long-distance modeling capability of the Transformer can help to build relationships between the human head and the gaze object, which is important for the GOP task. To this end, this paper introduces Transformer into the fields of gaze object prediction and proposes an end-to-end Transformer-based gaze object prediction method named TransGOP. Specifically, TransGOP uses an off-the-shelf Transformer-based object detector to detect the location of objects and designs a Transformer-based gaze autoencoder in the gaze regressor to establish long-distance gaze relationships. Moreover, to improve gaze heatmap regression, we propose an object-to-gaze cross-attention mechanism to let the queries of the gaze autoencoder learn the global-memory position knowledge from the object detector. Finally, to make the whole framework end-to-end trained, we propose a Gaze Box loss to jointly optimize the object detector and gaze regressor by enhancing the gaze heatmap energy in the box of the gaze object. Extensive experiments on the GOO-Synth and GOO-Real datasets demonstrate that our TransGOP achieves state-of-the-art performance on all tracks, i.e., object detection, gaze estimation, and gaze object prediction. Our code will be available at https://github.com/chenxi-Guo/TransGOP.git.
翻訳日:2024-02-22 16:30:10 公開日:2024-02-21
# LLMによる教師なしテキストスタイル転送とマルチウェイインタラクションによる注意タスク

Unsupervised Text Style Transfer via LLMs and Attention Masking with Multi-way Interactions ( http://arxiv.org/abs/2402.13647v1 )

ライセンス: Link先を確認
Lei Pan, Yunshi Lan, Yang Li, Weining Qian(参考訳) Unsupervised Text Style Transfer (UTST) は、自然言語処理(NLP)の領域において重要なタスクとして現れており、意味論、構文、その他の属性を変更することなく、文の1つのスタイルを別のスタイルに変換することを目的としている。 並列テキストペアリングの本質的な欠如を考えると、この作業は特に困難である。 既存のutstタスクでは,注意マスキングアプローチと大規模言語モデル(llm)が2つの先駆的手法とみなされている。 しかし、不規則な文を生成し、元の内容を変更することには欠点がある。 本稿では,これら2つの手法を効果的に組み合わせることができるか検討する。 そこで本研究では,LLMからアテンションマスキングモデルへの知識蒸留,コンテクスト内学習,並列的な例による並列学習の4つの方法を提案する。 これらのマルチウェイインタラクションが,スタイル強度,コンテンツ保存性,テキストフラレンシといった観点でベースラインを改善できることを実証的に示す。 実験では、単に注意マスクに基づくリビジョンを行うだけで、教師付きテキストスタイルの転送システムを含む他のシステムを追い越せることを示した。 Yelp-cleanデータセットとAmazon-cleanデータセットでは、それぞれ0.5と3.0の絶対パーセンテージで、これまで最高の平均メトリックを改善し、新たなSOTA結果を達成する。

Unsupervised Text Style Transfer (UTST) has emerged as a critical task within the domain of Natural Language Processing (NLP), aiming to transfer one stylistic aspect of a sentence into another style without changing its semantics, syntax, or other attributes. This task is especially challenging given the intrinsic lack of parallel text pairings. Among existing methods for UTST tasks, attention masking approach and Large Language Models (LLMs) are deemed as two pioneering methods. However, they have shortcomings in generating unsmooth sentences and changing the original contents, respectively. In this paper, we investigate if we can combine these two methods effectively. We propose four ways of interactions, that are pipeline framework with tuned orders; knowledge distillation from LLMs to attention masking model; in-context learning with constructed parallel examples. We empirically show these multi-way interactions can improve the baselines in certain perspective of style strength, content preservation and text fluency. Experiments also demonstrate that simply conducting prompting followed by attention masking-based revision can consistently surpass the other systems, including supervised text style transfer systems. On Yelp-clean and Amazon-clean datasets, it improves the previously best mean metric by 0.5 and 3.0 absolute percentages respectively, and achieves new SOTA results.
翻訳日:2024-02-22 16:22:46 公開日:2024-02-21
# 直交ロボットのための双腕物体再構成学習

Learning Dual-arm Object Rearrangement for Cartesian Robots ( http://arxiv.org/abs/2402.13634v1 )

ライセンス: Link先を確認
Shishun Zhang, Qijin She, Wenhao Li, Chenyang Zhu, Yongjun Wang, Ruizhen Hu, Kai Xu(参考訳) 本研究は,カーテシアンロボットの現実的な産業シナリオから抽象化された,デュアルアームのオブジェクト再配置問題に焦点を当てる。 この問題の目標は、すべてのオブジェクトをソースからターゲットに、総完了時間最小で転送することである。 目的を達成するためには,累積的タスク実行時間を最小化し,デュアルアーム協調効率を最大化する効果的なオブジェクト対アームタスク割り当て戦略を開発することにある。 タスク割り当ての難しさの1つはスケーラビリティの問題である。 オブジェクトの数が増えるにつれて、従来のオフライン検索ベースのメソッドの計算時間は計算の複雑さに強く寄与する。 長時間のタスク決定における強化学習(RL)の適用性から,RLに基づくオンラインタスク割り当て決定手法を提案する。 さらに,タスク実行プロセス全体における入力状態間の依存関係をモデル化し,タスク割り当てラウンド毎に最も合理的なオブジェクト間対応を見つけるための注意に基づくネットワークを設計する。 実験では,この特定の設定に検索ベースの手法を適用し,それらの手法との比較を行った。 実験結果から,本手法は,全実行時間と計算効率において,探索に基づく手法よりも優れた性能を達成し,異なるオブジェクト数への一般化を検証した。 さらに,本手法が実際のロボットに展開されている場合の補足ビデオの有効性を示す。

This work focuses on the dual-arm object rearrangement problem abstracted from a realistic industrial scenario of Cartesian robots. The goal of this problem is to transfer all the objects from sources to targets with the minimum total completion time. To achieve the goal, the core idea is to develop an effective object-to-arm task assignment strategy for minimizing the cumulative task execution time and maximizing the dual-arm cooperation efficiency. One of the difficulties in the task assignment is the scalability problem. As the number of objects increases, the computation time of traditional offline-search-based methods grows strongly for computational complexity. Encouraged by the adaptability of reinforcement learning (RL) in long-sequence task decisions, we propose an online task assignment decision method based on RL, and the computation time of our method only increases linearly with the number of objects. Further, we design an attention-based network to model the dependencies between the input states during the whole task execution process to help find the most reasonable object-to-arm correspondence in each task assignment round. In the experimental part, we adapt some search-based methods to this specific setting and compare our method with them. Experimental result shows that our approach achieves outperformance over search-based methods in total execution time and computational efficiency, and also verifies the generalization of our method to different numbers of objects. In addition, we show the effectiveness of our method deployed on the real robot in the supplementary video.
翻訳日:2024-02-22 16:22:24 公開日:2024-02-21
# ロバスト陰影検出のための暗黒領域への埋め込み

Delving into Dark Regions for Robust Shadow Detection ( http://arxiv.org/abs/2402.13631v1 )

ライセンス: Link先を確認
Huankang Guan, Ke Xu and Rynson W.H. Lau(参考訳) シャドー検出は、シャドー特性とグローバル/ローカル照明条件を包括的に理解する必要があるため、難しい課題である。 実験では,暗黒領域の非シャドー画素(低強度領域)とシャドウ画素の区別において,最先端の深層法の方が誤差率が高い傾向が観察された。 この問題に対する私たちの重要な洞察は、既存の方法が通常、画像全体から識別的な影の特徴をグローバルに学習し、全強度値をカバーし、暗黒領域における影と非影のピクセルの微妙な違いを学ばないということです。 したがって、低強度領域の狭い範囲にフォーカスするモデルを設計できれば、影検出のためのより良い識別的特徴を学習することができるかもしれない。 この知見にインスパイアされた新しいシャドウ検出手法を提案し,まず画像全体を通してグローバルな文脈的手がかりを学習し,次に暗黒領域に拡大して局所的なシャドウ表現を学習する。 この目的のために,低強度領域を推奨する効果的なダークリージョン推奨(drr)モジュールと,推奨ダーク領域からダークアウェアシャドー特徴を学習する新しいダークアウェアシャドウ分析(dasa)モジュールを定式化した。 実験の結果,提案手法は3つの一般的な影検出データセットにおいて最先端の手法よりも優れていた。 コードはhttps://github.com/guanhuankang/shadowdetection2021.gitで入手できる。

Shadow detection is a challenging task as it requires a comprehensive understanding of shadow characteristics and global/local illumination conditions. We observe from our experiment that state-of-the-art deep methods tend to have higher error rates in differentiating shadow pixels from non-shadow pixels in dark regions (ie, regions with low-intensity values). Our key insight to this problem is that existing methods typically learn discriminative shadow features from the whole image globally, covering the full range of intensity values, and may not learn the subtle differences between shadow and non-shadow pixels in dark regions. Hence, if we can design a model to focus on a narrower range of low-intensity regions, it may be able to learn better discriminative features for shadow detection. Inspired by this insight, we propose a novel shadow detection approach that first learns global contextual cues over the entire image and then zooms into the dark regions to learn local shadow representations. To this end, we formulate an effective dark-region recommendation (DRR) module to recommend regions of low-intensity values, and a novel dark-aware shadow analysis (DASA) module to learn dark-aware shadow features from the recommended dark regions. Extensive experiments show that the proposed method outperforms the state-of-the-art methods on three popular shadow detection datasets. Code is available at https://github.com/guanhuankang/ShadowDetection2021.git.
翻訳日:2024-02-22 16:22:01 公開日:2024-02-21
# unigraph: 自然言語からクロスドメイングラフの基礎モデルを学ぶ

UniGraph: Learning a Cross-Domain Graph Foundation Model From Natural Language ( http://arxiv.org/abs/2402.13630v1 )

ライセンス: Link先を確認
Yufei He, Bryan Hooi(参考訳) ChatGPTやGPT-4といったファウンデーションモデルは人工知能に革命をもたらし、初期のトレーニング目標を超えて幅広いタスクや応用を一般化する驚くべき能力を発揮している。 しかし、この概念がグラフ学習に適用されると、激しいコントラストが生じる。 グラフ学習は主に、特定のタスクやデータセットに適したシングルグラフモデルに焦点を当てており、学習した知識を異なるドメインに転送する能力がない。 この制限は、グラフデータに特有の異なる特徴とラベル空間とともに、グラフ構造の固有の複雑さと多様性に由来する。 本稿では,さまざまな領域にまたがる未確認グラフやタスクに一般化可能なグラフ基盤モデルをトレーニングするためのUniGraphフレームワークを提案する。 様々な次元の事前計算ノード特徴を入力として使用するシングルグラフモデルとは異なり,本手法ではテキスト分散グラフ(TAG)を用いてノード表現を統一する。 本稿では,MGM(Masked Graph Modeling)に基づく自己教師型学習目標を持つバックボーンネットワークとして,言語モデル(LM)とグラフニューラルネットワーク(GNN)のケースドアーキテクチャを提案する。 ゼロショット予測機能を実現するために,Large Language Models (LLM) を用いたグラフ命令チューニングを導入する。 さまざまなグラフ学習タスクやドメインを対象とした総合的な実験は、未確認のグラフ上での自己教師型表現学習、少数ショットのインコンテキスト転送、ゼロショット転送におけるモデルの有効性を示し、ターゲットデータセット上で教師型トレーニングを受けたGNNのパフォーマンスを上回ったり、マッチさせたりさえする。

Foundation models like ChatGPT and GPT-4 have revolutionized artificial intelligence, exhibiting remarkable abilities to generalize across a wide array of tasks and applications beyond their initial training objectives. However, when this concept is applied to graph learning, a stark contrast emerges. Graph learning has predominantly focused on single-graph models, tailored to specific tasks or datasets, lacking the ability to transfer learned knowledge to different domains. This limitation stems from the inherent complexity and diversity of graph structures, along with the different feature and label spaces specific to graph data. In this paper, we present our UniGraph framework, designed to train a graph foundation model capable of generalizing to unseen graphs and tasks across diverse domains. Unlike single-graph models that use pre-computed node features of varying dimensions as input, our approach leverages Text-Attributed Graphs (TAGs) for unifying node representations. We propose a cascaded architecture of Language Models (LMs) and Graph Neural Networks (GNNs) as backbone networks with a self-supervised training objective based on Masked Graph Modeling (MGM). We introduce graph instruction tuning using Large Language Models (LLMs) to enable zero-shot prediction ability. Our comprehensive experiments across various graph learning tasks and domains demonstrate the model's effectiveness in self-supervised representation learning on unseen graphs, few-shot in-context transfer, and zero-shot transfer, even surpassing or matching the performance of GNNs that have undergone supervised training on target datasets.
翻訳日:2024-02-22 16:21:30 公開日:2024-02-21
# ロバストUDC画像復元のための逆処理と微調整

Adversarial Purification and Fine-tuning for Robust UDC Image Restoration ( http://arxiv.org/abs/2402.13629v1 )

ライセンス: Link先を確認
Zhenbo Song, Zhenyuan Zhang, Kaihao Zhang, Wenhan Luo, Zhaoxin Fan, Jianfeng Lu(参考訳) 本研究は、敵の攻撃に対する堅牢性に着目し、UDC画像復元モデルの強化に焦点を当てた。 シームレスなディスプレイ統合に対する革新的なアプローチにもかかわらず、UDC技術は、対向的摂動に対する感受性により、独自の画像劣化の課題に直面している。 本研究は,複数のホワイトボックスとブラックボックス攻撃手法を用いて,深層学習に基づくUDC画像復元モデルの詳細な堅牢性評価を行う。 この評価は、現在のudc画像復元技術の脆弱性を理解する上で重要である。 評価の後、敵の浄化とその後の微調整プロセスを統合する防衛枠組みを導入する。 まず, 拡散型逆流浄化法を用いて, 対流摂動を効果的に中和する。 そして,この微調整手法を適用し,画像復元モデルをさらに洗練し,復元画像の品質と忠実さを確実に維持する。 提案手法の有効性は広範囲な実験により検証され,典型的な敵の攻撃に対する弾力性が著しく向上した。

This study delves into the enhancement of Under-Display Camera (UDC) image restoration models, focusing on their robustness against adversarial attacks. Despite its innovative approach to seamless display integration, UDC technology faces unique image degradation challenges exacerbated by the susceptibility to adversarial perturbations. Our research initially conducts an in-depth robustness evaluation of deep-learning-based UDC image restoration models by employing several white-box and black-box attacking methods. This evaluation is pivotal in understanding the vulnerabilities of current UDC image restoration techniques. Following the assessment, we introduce a defense framework integrating adversarial purification with subsequent fine-tuning processes. First, our approach employs diffusion-based adversarial purification, effectively neutralizing adversarial perturbations. Then, we apply the fine-tuning methodologies to refine the image restoration models further, ensuring that the quality and fidelity of the restored images are maintained. The effectiveness of our proposed approach is validated through extensive experiments, showing marked improvements in resilience against typical adversarial attacks.
翻訳日:2024-02-22 16:21:01 公開日:2024-02-21
# 建築温度予測の改善: システムシナリオクラスタリングによるデータ駆動アプローチ

Improving Building Temperature Forecasting: A Data-driven Approach with System Scenario Clustering ( http://arxiv.org/abs/2402.13628v1 )

ライセンス: Link先を確認
Dafang Zhao, Zheng Chen, Zhengmao Li, Xiaolei Yuan, Ittetsu Taniguchi(参考訳) 暖房・換気・空調システム(HVAC)は、快適な温熱環境を維持する上で重要な役割を担い、建築セクターにおけるエネルギー使用量の約40%を消費する。 建物におけるスマートエネルギー管理では、使用パターンとそのプロファイルにより、予測機能を備えた制御システムの改善が可能になる。 しかし,大規模hvacシステム管理では,サブシステムごとに詳細なモデルを構築することは困難である。 本稿では,k-meansクラスタリング法に基づく新しいデータ駆動室温予測モデルを提案する。 提案したデータ駆動温度予測手法は,履歴データ解析によりシステム動作特性を抽出し,さらにシステムレベルモデルを単純化し,一般化と計算効率を向上させる。 提案手法を実世界で評価する。 その結果,予測精度を低下させることなく,モデリング時間を大幅に削減できることがわかった。

Heat, Ventilation and Air Conditioning (HVAC) systems play a critical role in maintaining a comfortable thermal environment and cost approximately 40% of primary energy usage in the building sector. For smart energy management in buildings, usage patterns and their resulting profiles allow the improvement of control systems with prediction capabilities. However, for large-scale HVAC system management, it is difficult to construct a detailed model for each subsystem. In this paper, a new data-driven room temperature prediction model is proposed based on the k-means clustering method. The proposed data-driven temperature prediction approach extracts the system operation feature through historical data analysis and further simplifies the system-level model to improve generalization and computational efficiency. We evaluate the proposed approach in the real world. The results demonstrated that our approach can significantly reduce modeling time without reducing prediction accuracy.
翻訳日:2024-02-22 16:20:46 公開日:2024-02-21
# さらに:マルチモーダル検索による生成コモンセンス推論

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning ( http://arxiv.org/abs/2402.13625v1 )

ライセンス: Link先を確認
Wanqing Cui, Keping Bi, Jiafeng Guo, Xueqi Cheng(参考訳) コモンセンス情報は、その存在よりはるかに少ない頻度で記録されているため、テキスト生成によって事前学習された言語モデルは、十分なコモンセンス知識を学ぶことが困難である。 いくつかの研究は、モデルの常識能力を増強するためにテキスト検索を利用した。 テキストとは異なり、画像は本来は常識的な情報をキャプチャするが、効果的に活用するための努力はほとんど支払われていない。 本研究では,テキストと画像の両方を活用し,言語モデルのコモンセンス能力を向上する,新しいMORE(Multi-mOdal Retrieval)拡張フレームワークを提案する。 Common-Genタスクに関する大規模な実験は、シングルモードと複数モードの事前学習モデルに基づくMOREの有効性を実証した。

Since commonsense information has been recorded significantly less frequently than its existence, language models pre-trained by text generation have difficulty to learn sufficient commonsense knowledge. Several studies have leveraged text retrieval to augment the models' commonsense ability. Unlike text, images capture commonsense information inherently but little effort has been paid to effectively utilize them. In this work, we propose a novel Multi-mOdal REtrieval (MORE) augmentation framework, to leverage both text and images to enhance the commonsense ability of language models. Extensive experiments on the Common-Gen task have demonstrated the efficacy of MORE based on the pre-trained models of both single and multiple modalities.
翻訳日:2024-02-22 16:20:31 公開日:2024-02-21
# FLAME:大規模言語モデルを用いた自己監督型低リソース分類拡張

FLAME: Self-Supervised Low-Resource Taxonomy Expansion using Large Language Models ( http://arxiv.org/abs/2402.13623v1 )

ライセンス: Link先を確認
Sahil Mishra, Ujjwal Sudev, Tanmoy Chakraborty(参考訳) 分類学は、特定の領域内で知識を伝達するエンティティ間の関係を確立するアーボラッセンス階層構造を表す。 分類学の各辺はハイパーニムとハイポニムの関係を表す。 分類学は、eコマース検索エンジンやレコメンデーションシステムなど、様々な現実世界のアプリケーションで有用性を見出す。 そのため、これらの分類を時間とともに強化する必要性が生じた。 しかし, 人的資源の制限や, 指数関数的なデータ増加が原因で, 人的分類学をネオテリックデータで手作業でキュレートすることは困難である。 そのため,自動分類展開法の開発が不可欠となる。 伝統的な分類体系の拡張アプローチでは、限られた資源から生じる困難に遭遇する。 このトレーニングデータの不足は、しばしば過度に適合する。 本稿では,大規模な言語モデルの能力を活用し,多様な実世界の知識を訓練し,低資源環境における分類学拡張のための新しいアプローチであるFLAMEを提案する。 LLMはドメイン固有の知識の不足を補うのに役立つ。 具体的には、FLAMEは、数発の設定でLLM内の固有の知識を抽出し、分類学内のハイパーネムエンティティを確認する。 さらに、強化学習を用いて大きな言語モデルを微調整し、より正確な予測を行う。 3つの実世界のベンチマークデータセットの実験では、FLAMEが現実世界のシナリオで有効であることを示し、18.5%の精度と12.3%のWu & Palmerメートル法を8基準で改善した。 さらに, FLAMEの強みと弱みを, 広範囲にわたるケーススタディ, エラー解析, およびベンチマークのアブレーション研究を通じて解明する。

Taxonomies represent an arborescence hierarchical structure that establishes relationships among entities to convey knowledge within a specific domain. Each edge in the taxonomy signifies a hypernym-hyponym relationship. Taxonomies find utility in various real-world applications, such as e-commerce search engines and recommendation systems. Consequently, there arises a necessity to enhance these taxonomies over time. However, manually curating taxonomies with neoteric data presents challenges due to limitations in available human resources and the exponential growth of data. Therefore, it becomes imperative to develop automatic taxonomy expansion methods. Traditional supervised taxonomy expansion approaches encounter difficulties stemming from limited resources, primarily due to the small size of existing taxonomies. This scarcity of training data often leads to overfitting. In this paper, we propose FLAME, a novel approach for taxonomy expansion in low-resource environments by harnessing the capabilities of large language models that are trained on extensive real-world knowledge. LLMs help compensate for the scarcity of domain-specific knowledge. Specifically, FLAME leverages prompting in few-shot settings to extract the inherent knowledge within the LLMs, ascertaining the hypernym entities within the taxonomy. Furthermore, it employs reinforcement learning to fine-tune the large language models, resulting in more accurate predictions. Experiments on three real-world benchmark datasets demonstrate the effectiveness of FLAME in real-world scenarios, achieving a remarkable improvement of 18.5% in accuracy and 12.3% in Wu & Palmer metric over eight baselines. Furthermore, we elucidate the strengths and weaknesses of FLAME through an extensive case study, error analysis and ablation studies on the benchmarks.
翻訳日:2024-02-22 16:20:19 公開日:2024-02-21
# 高次元正規化回帰におけるブートストラップとサブサンプリングの解析

Analysis of Bootstrap and Subsampling in High-dimensional Regularized Regression ( http://arxiv.org/abs/2402.13622v1 )

ライセンス: Link先を確認
Lucas Clart\'e, Adrien Vandenbroucque, Guillaume Dalle, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 本研究では, サブサンプリング, ブートストラップ, ジャックナイフなどの統計モデルの不確実性を推定するための一般的な再サンプリング手法とその高次元教師あり回帰タスクにおける性能について検討する。 我々は、リッジやロジスティック回帰のような一般化線形モデルの文脈において、これらの方法によって推定されるバイアスと分散の厳密な漸近的記述を提供し、コ変数のサンプル数 n$ と次元 $d$ が同等の固定レート $\alpha\! は、n/d$。 私たちの発見は3倍です。 一 再サンプリング方法は、高次元の問題にあつて、これらの状況に典型的な二重発色様の挙動を示す。 i)$\alpha$が十分に大きい場合のみ、一貫性のある信頼性のあるエラー推定(収束率を与える)を提供できる。 三 過度にパラメータ化された体制$\alpha\! <\! 現代の機械学習の実践に関連する1ドルは、最適な正規化であっても、予測は一貫性がない。

We investigate popular resampling methods for estimating the uncertainty of statistical models, such as subsampling, bootstrap and the jackknife, and their performance in high-dimensional supervised regression tasks. We provide a tight asymptotic description of the biases and variances estimated by these methods in the context of generalized linear models, such as ridge and logistic regression, taking the limit where the number of samples $n$ and dimension $d$ of the covariates grow at a comparable fixed rate $\alpha\!=\! n/d$. Our findings are three-fold: i) resampling methods are fraught with problems in high dimensions and exhibit the double-descent-like behavior typical of these situations; ii) only when $\alpha$ is large enough do they provide consistent and reliable error estimations (we give convergence rates); iii) in the over-parametrized regime $\alpha\!<\!1$ relevant to modern machine learning practice, their predictions are not consistent, even with optimal regularization.
翻訳日:2024-02-22 16:19:50 公開日:2024-02-21
# YOLOv9: プログラマブルなグラディエント情報を使って学習したいことを学ぶ

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information ( http://arxiv.org/abs/2402.13616v1 )

ライセンス: Link先を確認
Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao(参考訳) 今日のディープラーニング手法は、モデルの予測結果が基礎的な真実に最も近いように、最も適切な目的関数を設計する方法に焦点を当てている。 一方、予測に十分な情報の取得を容易にする適切なアーキテクチャを設計する必要がある。 既存の方法は、入力データが層別特徴抽出と空間変換を行うと、大量の情報が失われるという事実を無視している。 本稿では,深層ネットワークを介してデータを送信する場合,情報損失の重要な問題,すなわち情報ボトルネックと可逆関数について考察する。 複数の目的を達成するために深層ネットワークが要求する様々な変化に対処するために,プログラム可能な勾配情報(pgi)の概念を提案した。 pgiは対象タスクの完全な入力情報を提供して目的関数を算出でき、信頼性の高い勾配情報を得てネットワーク重みを更新できる。 さらに、勾配経路計画に基づく、新しい軽量ネットワークアーキテクチャ -- 一般化された効率的な層集約ネットワーク(gelan)が設計されている。 GELANのアーキテクチャは、PGIが軽量モデルにおいて優れた結果を得たことを確認している。 提案したGELANとPGIを,MS COCOデータセットを用いたオブジェクト検出で検証した。 その結果,GELANは従来の畳み込み演算子のみを用いて,奥行きの畳み込みに基づく最先端手法よりも優れたパラメータ利用を実現していることがわかった。 PGIは軽量から大規模まで様々なモデルに使用することができる。 scratchモデルが、大規模なデータセットを使って事前トレーニングされた最先端モデルよりも優れた結果が得られるように、完全な情報を得るために使用できる。 ソースコードはhttps://github.com/wongkinyiu/yolov9。

Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.
翻訳日:2024-02-22 16:19:31 公開日:2024-02-21
# 事実として結合の誤認を解釈する

Analyizing the Conjunction Fallacy as a Fact ( http://arxiv.org/abs/2402.13615v1 )

ライセンス: Link先を確認
Tomas Veloz, Olha Sobetska(参考訳) トベルスキーとカーネマンによる独創的な論文以降、結合誤認は複数の議論の対象となり、意思決定における認知理論の根本的な挑戦となった。 この記事では、この現象について、かなり珍しい視点を取ります。 結び付き誤り(拡張的定義)の性質や原因を説明するのではなく、その事実的可能性(拡張的定義)の範囲を分析する。 1983年から2016年の間、文献でレビューされた実験のサンプルによれば、結合誤性に関する研究の大部分は、事前の事実的可能性の狭い部分に焦点を当てており、結合誤性の説明は、可能性の短い範囲で基本的に偏っていることを示している。 後者は、その性質が拡張的考察によって動機づけられていることを考えると、共同誤認における研究の進化のかなり興味深い側面である。

Since the seminal paper by Tversky and Kahneman, the conjunction fallacy has been the subject of multiple debates and become a fundamental challenge for cognitive theories in decision-making. In this article, we take a rather uncommon perspective on this phenomenon. Instead of trying to explain the nature or causes of the conjunction fallacy (intensional definition), we analyze its range of factual possibilities (extensional definition). We show that the majority of research on the conjunction fallacy, according to our sample of experiments reviewed which covers literature between 1983 and 2016, has focused on a narrow part of the a priori factual possibilities, implying that explanations of the conjunction fallacy are fundamentally biased by the short scope of possibilities explored. The latter is a rather curious aspect of the research evolution in the conjunction fallacy considering that the very nature of it is motivated by extensional considerations.
翻訳日:2024-02-22 16:19:04 公開日:2024-02-21
# VLSP 2023 -- ComOM Shared Task: A data Challenge for Comparison Opinion Mining from Vietnam Product Reviews

Overview of the VLSP 2023 -- ComOM Shared Task: A Data Challenge for Comparative Opinion Mining from Vietnamese Product Reviews ( http://arxiv.org/abs/2402.13613v1 )

ライセンス: Link先を確認
Hoang-Quynh Le, Duy-Cat Can, Khanh-Vinh Nguyen and Mai-Vu Tran(参考訳) 本稿では,ベトナム語と音声処理に関する10$^{th}$ International Workshop on Vietnam Language and Speech Processing (VLSP 2023)の一部として開催された,ベトナム製品レビュー共有タスク(ComOM)における比較オピニオンマイニングの概要を紹介する。 本課題の主な目的は,ベトナムの製品レビューから比較意見を引き出す技術を開発することにより,自然言語処理の分野を前進させることである。 参加者は、被験者、対象、アスペクト、述語、比較タイプラベルを包含する比較文から、しばしば比較「クインタプル」を抽出するモデルを提案する。 人間の注釈付きデータセットは、ドキュメントが120ドル、非比較文が7427ドル、比較文が2468ドルです。 Exact match macro-averaged quintuple F1 score に基づいて評価とランク付けを行う。

This paper presents a comprehensive overview of the Comparative Opinion Mining from Vietnamese Product Reviews shared task (ComOM), held as part of the 10$^{th}$ International Workshop on Vietnamese Language and Speech Processing (VLSP 2023). The primary objective of this shared task is to advance the field of natural language processing by developing techniques that proficiently extract comparative opinions from Vietnamese product reviews. Participants are challenged to propose models that adeptly extract a comparative "quintuple" from a comparative sentence, encompassing Subject, Object, Aspect, Predicate, and Comparison Type Label. We construct a human-annotated dataset comprising $120$ documents, encompassing $7427$ non-comparative sentences and $2468$ comparisons within $1798$ sentences. Participating models undergo evaluation and ranking based on the Exact match macro-averaged quintuple F1 score.
翻訳日:2024-02-22 16:18:48 公開日:2024-02-21
# 大規模生成モデルによるデータ駆動ディスカバリ

Data-driven Discovery with Large Generative Models ( http://arxiv.org/abs/2402.13610v1 )

ライセンス: Link先を確認
Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal, Sanchaita Hazra, Ashish Sabharwal, Peter Clark(参考訳) データの蓄積は前例のないペースで進み、科学的な発見を加速させる可能性が高まっている。 本稿では、機械学習(ml)コミュニティに対して、大規模生成モデル(lgms)の機能を利用して、エンドツーエンドのデータ駆動ディスカバリのための自動化システムを開発するよう促す。 まず、理想的なデータ駆動探索システムのためのデシラタについて概説する。 次に、GPT-4を利用した概念実証であるDateVOYAGERを通じて、LGMがこれらのデシダラタ(以前は達成不可能な成果)のいくつかをいかに満たしているかを実証するとともに、新しいML研究の機会を開く現在のシステムにおける重要な制限を強調します。 LGMの現在の能力によってのみ、正確で信頼性があり、堅牢なエンドツーエンド発見システムを実現することは困難である、と我々は主張する。 フィードバック機構によるアクティブなユーザモデレーションとともに、フェールセーフなツール統合を提唱し、効率性と再現性を備えたデータ駆動型科学的発見を育む。

With the accumulation of data at an unprecedented rate, its potential to fuel scientific discovery is growing exponentially. This position paper urges the Machine Learning (ML) community to exploit the capabilities of large generative models (LGMs) to develop automated systems for end-to-end data-driven discovery -- a paradigm encompassing the search and verification of hypotheses purely from a set of provided datasets, without the need for additional data collection or physical experiments. We first outline several desiderata for an ideal data-driven discovery system. Then, through DATAVOYAGER, a proof-of-concept utilizing GPT-4, we demonstrate how LGMs fulfill several of these desiderata -- a feat previously unattainable -- while also highlighting important limitations in the current system that open up opportunities for novel ML research. We contend that achieving accurate, reliable, and robust end-to-end discovery systems solely through the current capabilities of LGMs is challenging. We instead advocate for fail-proof tool integration, along with active user moderation through feedback mechanisms, to foster data-driven scientific discoveries with efficiency and reproducibility.
翻訳日:2024-02-22 16:18:30 公開日:2024-02-21
# VOOM:階層的ランドマークを用いたロバストなビジュアルオブジェクトオードメトリーとマッピング

VOOM: Robust Visual Object Odometry and Mapping using Hierarchical Landmarks ( http://arxiv.org/abs/2402.13609v1 )

ライセンス: Link先を確認
Yutong Wang, Chaoyang Jiang, Xieyuanli Chen(参考訳) 近年、オブジェクト指向同時ローカライゼーション・マッピング(slam: object-oriented concurrent localization and mapping)が、計算効率を維持しつつ高レベルの意味情報を提供する能力によって注目を集めている。 一部の研究者は、モデル化されたオブジェクト残基をバンドル調整に統合することにより、局所化の精度を高めようと試みている。 しかし,cuboids や ellipsoids といった汎用的な粗オブジェクトモデルは特徴点よりも精度が低いため,機能ベースのビジュアルスラムシステムよりも優れた結果が得られていない。 本稿では,高レベルオブジェクトと低レベルポイントを階層的なランドマークとして,バンドル調整でオブジェクトの残差を直接使用するのではなく,粒度から細かな方法で使用するビジュアルオブジェクトオドメトリおよびマッピングフレームワークvoomを提案する。 まず,物理オブジェクトを表現するために用いられる,改良された観測モデルと2次二次の新たなデータアソシエーション手法を提案する。 現実をよく反映した3Dマップの作成を容易にする。 次に、オブジェクト情報を用いて特徴点のデータ関連性を高め、その結果、マップを更新する。 ビジュアルオブジェクト計測バックエンドでは、更新されたマップを使用して、カメラのポーズとオブジェクトをさらに最適化する。 一方,視覚オブジェクトマッピングプロセスでは,オブジェクトと点ベースの可視性グラフを用いて局所バンドル調整を行う。 実験により、VOOMはオブジェクト指向SLAMとORB-SLAM2のような特徴点SLAMシステムの両方をローカライゼーションで上回ることがわかった。 このメソッドの実装はhttps://github.com/yutongwangbit/voom.gitで利用可能です。

In recent years, object-oriented simultaneous localization and mapping (SLAM) has attracted increasing attention due to its ability to provide high-level semantic information while maintaining computational efficiency. Some researchers have attempted to enhance localization accuracy by integrating the modeled object residuals into bundle adjustment. However, few have demonstrated better results than feature-based visual SLAM systems, as the generic coarse object models, such as cuboids or ellipsoids, are less accurate than feature points. In this paper, we propose a Visual Object Odometry and Mapping framework VOOM using high-level objects and low-level points as the hierarchical landmarks in a coarse-to-fine manner instead of directly using object residuals in bundle adjustment. Firstly, we introduce an improved observation model and a novel data association method for dual quadrics, employed to represent physical objects. It facilitates the creation of a 3D map that closely reflects reality. Next, we use object information to enhance the data association of feature points and consequently update the map. In the visual object odometry backend, the updated map is employed to further optimize the camera pose and the objects. Meanwhile, local bundle adjustment is performed utilizing the objects and points-based covisibility graphs in our visual object mapping process. Experiments show that VOOM outperforms both object-oriented SLAM and feature points SLAM systems such as ORB-SLAM2 in terms of localization. The implementation of our method is available at https://github.com/yutongwangBIT/VOOM.git.
翻訳日:2024-02-22 16:18:10 公開日:2024-02-21
# 深い展開によるマルコフ連鎖モンテカルロ型勾配降下の収束加速

Convergence Acceleration of Markov Chain Monte Carlo-based Gradient Descent by Deep Unfolding ( http://arxiv.org/abs/2402.13608v1 )

ライセンス: Link先を確認
Ryo Hagiwara and Satoshi Takabe(参考訳) 本研究では,deep unfoldingと呼ばれるディープラーニング手法を用いて,組合せ最適化問題(cops)に対する学習可能なサンプリング型解法を提案する。 提案手法は,マルコフ連鎖モンテカルロ(MCMC)と勾配降下を結合したオオゼキ法に基づいており,そのステップサイズは損失関数の最小化によって訓練される。 本稿では, MCMCの非微分性による後方伝播の失敗を回避するために, 自動微分を分散推定に置き換えるサンプリングベース勾配推定法を提案する。 数個のcopの数値計算結果から,本手法は従来のohzeki法に比べて収束速度を著しく向上させた。

This study proposes a trainable sampling-based solver for combinatorial optimization problems (COPs) using a deep-learning technique called deep unfolding. The proposed solver is based on the Ohzeki method that combines Markov-chain Monte-Carlo (MCMC) and gradient descent, and its step sizes are trained by minimizing a loss function. In the training process, we propose a sampling-based gradient estimation that substitutes auto-differentiation with a variance estimation, thereby circumventing the failure of back propagation due to the non-differentiability of MCMC. The numerical results for a few COPs demonstrated that the proposed solver significantly accelerated the convergence speed compared with the original Ohzeki method.
翻訳日:2024-02-22 16:17:47 公開日:2024-02-21
# 多言語インストラクション・チューニング:多言語モデルの多言語インストラクションへの需要は?

Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? ( http://arxiv.org/abs/2402.13703v1 )

ライセンス: Link先を確認
Alexander Arno Weber, Klaudia Thellmann, Jan Ebert, Nicolas Flores-Herr, Jens Lehmann, Michael Fromm and Mehdi Ali(参考訳) 多言語事前学習型大規模言語モデル(LLM)の雄弁で有用なアシスタントへの適応は、異なる言語領域での使用を促進するために不可欠である。 その精神の中で、我々は、最も話し言葉の多いインド・ヨーロッパ言語の選択を通して、並列、マルチターンの命令チューニングベンチマークで、多言語モデルのパフォーマンスを広範囲に研究した最初の者です。 並列命令チューニングデータセット上での命令チューニングにより,中規模多言語llmにおける言語と命令データセットサイズの影響を体系的に検討する。 本研究は,単言語コーパスの代わりに並列で命令チューニングを行うことにより,最大4.6%の言語間命令処理が可能となることを示す。 さらに,多言語7bパラメータモデルでは,大規模命令チューニングデータセットが必要となる反例を示すため,表層アライメント仮説は一般には成立しないことを示す。 最後に,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。

The adaption of multilingual pre-trained Large Language Models (LLMs) into eloquent and helpful assistants is essential to facilitate their use across different language regions. In that spirit, we are the first to conduct an extensive study of the performance of multilingual models on parallel, multi-turn instruction-tuning benchmarks across a selection of the most-spoken Indo-European languages. We systematically examine the effects of language and instruction dataset size on a mid-sized, multilingual LLM by instruction-tuning it on parallel instruction-tuning datasets. Our results demonstrate that instruction-tuning on parallel instead of monolingual corpora benefits cross-lingual instruction following capabilities by up to 4.6%. Furthermore, we show that the Superficial Alignment Hypothesis does not hold in general, as the investigated multilingual 7B parameter model presents a counter-example requiring large-scale instruction-tuning datasets. Finally, we conduct a human annotation study to understand the alignment between human-based and GPT-4-based evaluation within multilingual chat scenarios.
翻訳日:2024-02-22 16:10:33 公開日:2024-02-21
# テール確率のバウンディング法

A Method For Bounding Tail Probabilities ( http://arxiv.org/abs/2402.13662v1 )

ライセンス: Link先を確認
Nikola Zlatanov(参考訳) 本稿では,連続確率変数(rvs)の右尾と左尾の確率を上下に限定する手法を提案する。 確率密度関数 $f_X(x)$ を持つ RV $X$ の右テール確率 RV $X$ に対して、この方法はまず連続的かつ正で厳密に減少する関数 $g_X(x)$ を$-f_X(x)/g'_X(x)$ が減少および増大する関数であるような関数 $g_X(x)$ と、それぞれ上界と下界を生じる $\forall x>x_0$ を $-f_X(x) g_X(x)/g'_X(x)$, $\forall x>x_0$ という形で与えられる。 同様に、$X$ の左尾の確率の上限と下限について、この方法はまず連続的で正で厳密に増大する関数 $g_X(x)$ を$f_X(x)/g'_X(x)$ が増加・減少する関数 $\forall x<x_0$ で、それぞれ上限と下限が $f_X(x) g_X(x)/g'_X(x)$, $\forall x<x_0$ となるように設定する必要がある。 関数 $g_X(x)$ のよい候補をいくつか提示する。 我々はまた、新しい境界とマルコフの不等式とチャーノフの束の間の関係を確立する。 また,一定の条件下で,より強固な下界と上界を得るための反復的手法を提案する。 最後に、選択した$g_X(x)$に対して、これらの境界の厳密性を示す数値的な例を示す。

We present a method for upper and lower bounding the right and the left tail probabilities of continuous random variables (RVs). For the right tail probability of RV $X$ with probability density function $f_X(x)$, this method requires first setting a continuous, positive, and strictly decreasing function $g_X(x)$ such that $-f_X(x)/g'_X(x)$ is a decreasing and increasing function, $\forall x>x_0$, which results in upper and lower bounds, respectively, given in the form $-f_X(x) g_X(x)/g'_X(x)$, $\forall x>x_0$, where $x_0$ is some point. Similarly, for the upper and lower bounds on the left tail probability of $X$, this method requires first setting a continuous, positive, and strictly increasing function $g_X(x)$ such that $f_X(x)/g'_X(x)$ is an increasing and decreasing function, $\forall x<x_0$, which results in upper and lower bounds, respectively, given in the form $f_X(x) g_X(x)/g'_X(x)$, $\forall x<x_0$. We provide some examples of good candidates for the function $g_X(x)$. We also establish connections between the new bounds and Markov's inequality and Chernoff's bound. In addition, we provide an iterative method for obtaining ever tighter lower and upper bounds, under certain conditions. Finally, we provide numerical examples, where we show the tightness of these bounds, for some chosen $g_X(x)$.
翻訳日:2024-02-22 16:10:14 公開日:2024-02-21
# 大規模言語モデルアライメントのためのプライバシ保護命令

Privacy-Preserving Instructions for Aligning Large Language Models ( http://arxiv.org/abs/2402.13659v1 )

ライセンス: Link先を確認
Da Yu, Peter Kairouz, Sewoong Oh, Zheng Xu(参考訳) 大規模言語モデル(LLM)アプリケーションのサービスプロバイダは、ユーザ命令を野放しに収集し、LLMをさらにユーザーの意図に合わせるために使用する。 機密情報を含む可能性のあるこれらの命令は、その過程で人間の作業員によって注釈付けされる。 これにより、一般的なプライベート最適化で対処されない新たなプライバシーリスクが生じる。 そこで本研究では,データアノテーションとモデル微調整における実命令を置き換えるための合成命令を提案する。 形式的な差分プライバシーは、プライベートな微調整された発電機を使用して合成命令を生成することで保証される。 所望の実用性を達成する上で重要なのが,合成命令と実命令の分布をマッチングする新しいフィルタリングアルゴリズムである。 人間のフィードバックによる微調整と強化学習の両方において,実際の命令に匹敵する結果を示し,合成命令の最終セットの高有用性を示す実験を行った。 教師付き微調整では、プライベートな合成命令でトレーニングされたモデルは、vicunaのような主要なオープンソースモデルよりも優れています。

Service providers of large language model (LLM) applications collect user instructions in the wild and use them in further aligning LLMs with users' intentions. These instructions, which potentially contain sensitive information, are annotated by human workers in the process. This poses a new privacy risk not addressed by the typical private optimization. To this end, we propose using synthetic instructions to replace real instructions in data annotation and model fine-tuning. Formal differential privacy is guaranteed by generating those synthetic instructions using privately fine-tuned generators. Crucial in achieving the desired utility is our novel filtering algorithm that matches the distribution of the synthetic instructions to that of the real ones. In both supervised fine-tuning and reinforcement learning from human feedback, our extensive experiments demonstrate the high utility of the final set of synthetic instructions by showing comparable results to real instructions. In supervised fine-tuning, models trained with private synthetic instructions outperform leading open-source models such as Vicuna.
翻訳日:2024-02-22 16:09:34 公開日:2024-02-21
# 回帰木の安定な更新

Stable Update of Regression Trees ( http://arxiv.org/abs/2402.13655v1 )

ライセンス: Link先を確認
Morten Bl{\o}rstad, Berent {\AA}. S. Lunde, Nello Blaser(参考訳) 新しい情報による機械学習モデルの更新は、通常、予測性能を改善するが、多くのアプリケーションでは、モデル予測の変更を過度に避けることも望ましい。 この性質は安定性と呼ばれる。 ほとんどの場合、安定性が重要な場合、説明可能性も重要です。 そこで我々は,回帰木という,本質的に説明可能な機械学習手法の安定性に注目した。 我々は,予測可能性と経験的安定性のバランスをとるためのレグレッションツリーの更新に,経験的安定性と設計アルゴリズムの概念を利用する。 そこで本研究では,初期モデルの不確実性に基づいてデータポイントを重み付けする正規化手法を提案する。 予測可能性と経験的安定性のバランスはハイパーパラメータによって調整できる。 この正則化法は損失と安定性の観点から評価され、幅広いデータ特性に基づいて評価される。 その結果,提案手法は類似あるいはより良い予測性能を達成しつつ,安定性の向上を図っている。 これは回帰木を更新した場合の予測結果と安定結果の両方を達成可能であることを示している。

Updating machine learning models with new information usually improves their predictive performance, yet, in many applications, it is also desirable to avoid changing the model predictions too much. This property is called stability. In most cases when stability matters, so does explainability. We therefore focus on the stability of an inherently explainable machine learning method, namely regression trees. We aim to use the notion of empirical stability and design algorithms for updating regression trees that provide a way to balance between predictability and empirical stability. To achieve this, we propose a regularization method, where data points are weighted based on the uncertainty in the initial model. The balance between predictability and empirical stability can be adjusted through hyperparameters. This regularization method is evaluated in terms of loss and stability and assessed on a broad range of data characteristics. The results show that the proposed update method improves stability while achieving similar or better predictive performance. This shows that it is possible to achieve both predictive and stable results when updating regression trees.
翻訳日:2024-02-22 16:09:18 公開日:2024-02-21
# スロットル弁ベンチマークによる強化学習による比例積分制御の改善

Improving a Proportional Integral Controller with Reinforcement Learning on a Throttle Valve Benchmark ( http://arxiv.org/abs/2402.13654v1 )

ライセンス: Link先を確認
Paul Daoudi, Bojan Mavkov, Bogdan Robu, Christophe Prieur, Emmanuel Witrant, Merwan Barlier and Ludovic Dos Santos(参考訳) 本稿では,非線形スロットル弁を非対称なヒステリシスで制御する学習型制御手法を提案する。 まず,注意に調整された比例積分器(pi)コントローラから始めて,最近の強化学習(rl)の進歩をガイドで活用し,バルブとの付加的な相互作用から学習することにより閉ループ動作を改善する。 非線形確率システムの制御性能を向上させるために, pi と rl の両フレームワークを組み合わせた制御方法を, 3 つの異なる弁上で様々なシナリオでテストした。 実験では, 従来のRLエージェントよりも試料効率が良く, PIコントローラよりも優れていた。

This paper presents a learning-based control strategy for non-linear throttle valves with an asymmetric hysteresis, leading to a near-optimal controller without requiring any prior knowledge about the environment. We start with a carefully tuned Proportional Integrator (PI) controller and exploit the recent advances in Reinforcement Learning (RL) with Guides to improve the closed-loop behavior by learning from the additional interactions with the valve. We test the proposed control method in various scenarios on three different valves, all highlighting the benefits of combining both PI and RL frameworks to improve control performance in non-linear stochastic systems. In all the experimental test cases, the resulting agent has a better sample efficiency than traditional RL agents and outperforms the PI controller.
翻訳日:2024-02-22 16:09:01 公開日:2024-02-21
# PQA:大規模言語モデルを用いたフリーフォーム科学調査のためのゼロショットタンパク質質問回答

PQA: Zero-shot Protein Question Answering for Free-form Scientific Enquiry with Large Language Models ( http://arxiv.org/abs/2402.13653v1 )

ライセンス: Link先を確認
Eli M Carrami and Sahand Sharifzadeh(参考訳) 本稿では, ゼロショットタンパク質質問回答(PQA)の新たな課題について紹介する。 未確認のタンパク質配列と自然言語の問題を考えると、その課題は科学的に正確な答えを提供することである。 このタスクは、将来の生物学的研究をサポートするだけでなく、大規模言語モデル(LLM)の科学的精度を評価するためのテストベッドを提供することもできる。 我々はPQAモデルトレーニングのための最初の特別なデータセットを寄贈し、257Kのタンパク質配列に1.97Mの科学的質問応答ペアを付加した。 さらに, 科学的PQAのための生物学的関連ベンチマークをいくつか提案し, 研究を行った。 2つの堅牢なマルチモーダルアーキテクチャを用いて、PQAの最先端性能を確立し、アブレーション研究を通じて重要な性能要因を明らかにする。 Pikaという名前の包括的なPQAフレームワークは、データセット、コード、モデルチェックポイント、ユーザフレンドリなデモなどを含み、github.com/EMCarrami/Pikaでオープンにアクセスでき、この分野の幅広い研究と応用を促進する。

We introduce the novel task of zero-shot Protein Question Answering (PQA) for free-form scientific enquiry. Given a previously unseen protein sequence and a natural language question, the task is to deliver a scientifically accurate answer. This task not only supports future biological research, but could also provide a test bed for assessing the scientific precision of large language models (LLMs). We contribute the first specialized dataset for PQA model training, containing 257K protein sequences annotated with 1.97M scientific question-answer pairs. Additionally, we propose and study several novel biologically relevant benchmarks for scientific PQA. Employing two robust multi-modal architectures, we establish an initial state-of-the-art performance for PQA and reveal key performance factors through ablation studies. Our comprehensive PQA framework, named Pika, including dataset, code, model checkpoints, and a user-friendly demo, is openly accessible on github.com/EMCarrami/Pika, promoting wider research and application in the field.
翻訳日:2024-02-22 16:08:47 公開日:2024-02-21
# マイクロドップラーレーダ分類のためのディープニューラルネットワークのロバスト性

Robustness of Deep Neural Networks for Micro-Doppler Radar Classification ( http://arxiv.org/abs/2402.13651v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski and Carmine Clemente and Craig MichieCraig Michie and Christos Tachtatzis(参考訳) レーダーデータ処理のための深い分類器の能力により、データセット特有の機能を学習するリスクは、うまく一般化しない。 本研究は,同一データ上で学習およびテストされた2つの深い畳み込みアーキテクチャのロバスト性を評価する。 標準的な訓練の実践に従うと、両方の分類器は入力表現の微妙な時間的シフトに対する感受性を示す。 さらに、モデルは敵の例に非常に影響を受けやすい。 小さな時間シフトと逆の例は、よく一般化しない特徴に過度に適合するモデルの結果である。 対策として, 対向的な例と時間的に強化されたサンプルのトレーニングにより, この効果が減少し, より一般化したモデルがもたらされることが示されている。 最後に、ドップラー時間よりもケイデンス・ベロシティ・ダイアグラムに基づくモデルが、逆の例に自然に免疫があることが示されている。

With the great capabilities of deep classifiers for radar data processing come the risks of learning dataset-specific features that do not generalize well. In this work, the robustness of two deep convolutional architectures, trained and tested on the same data, is evaluated. When standard training practice is followed, both classifiers exhibit sensitivity to subtle temporal shifts of the input representation, an augmentation that carries minimal semantic content. Furthermore, the models are extremely susceptible to adversarial examples. Both small temporal shifts and adversarial examples are a result of a model overfitting on features that do not generalize well. As a remedy, it is shown that training on adversarial examples and temporally augmented samples can reduce this effect and lead to models that generalise better. Finally, models operating on cadence-velocity diagram representation rather than Doppler-time are demonstrated to be naturally more immune to adversarial examples.
翻訳日:2024-02-22 16:08:28 公開日:2024-02-21
# マルチタスク半教師付き学習の大規模解析

A Large Dimensional Analysis of Multi-task Semi-Supervised Learning ( http://arxiv.org/abs/2402.13646v1 )

ライセンス: Link先を確認
Victor Leger, Romain Couillet(参考訳) 本稿では,多タスク学習と半教師付き学習を同時に含み,不確実なラベリングを考慮した,単純かつ多目的な分類モデルの大規模な次元的研究を行う。 ランダム行列理論のツールを用いて、いくつかの重要な関数の漸近を特徴付けることにより、アルゴリズムの性能を予測することができ、一方、効率よく利用する方法についての直感的なガイダンスを明らかにすることができる。 優れたパフォーマンス保証を提供するのに十分強力なこのモデルは、その振る舞いに対する強い洞察を提供するのに十分単純です。

This article conducts a large dimensional study of a simple yet quite versatile classification model, encompassing at once multi-task and semi-supervised learning, and taking into account uncertain labeling. Using tools from random matrix theory, we characterize the asymptotics of some key functionals, which allows us on the one hand to predict the performances of the algorithm, and on the other hand to reveal some counter-intuitive guidance on how to use it efficiently. The model, powerful enough to provide good performance guarantees, is also straightforward enough to provide strong insights into its behavior.
翻訳日:2024-02-22 16:08:11 公開日:2024-02-21
# シーンテキスト認識のためのクラス対応マスクガイド機能強化

Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition ( http://arxiv.org/abs/2402.13643v1 )

ライセンス: Link先を確認
Mingkun Yang, Biao Yang, Minghui Liao, Yingying Zhu, Xiang Bai(参考訳) シーンテキスト認識は、複雑な背景、多様なフォント、柔軟な配置、偶発的な閉塞など、シーンテキストの複雑さと多様性のために多くの課題に直面している。 本稿では,これらの課題に対処するために,CAM(Class-Aware Mask-guided Feature refinement)と呼ばれる新しいアプローチを提案する。 提案手法では,標準フォントから生成した標準クラス対応グリフマスクを導入し,背景およびテキストスタイルのノイズを効果的に抑制し,特徴識別を向上する。 さらに,テキスト認識のための機能改良のために,正準マスクガイダンスを組み込む機能アライメントと融合モジュールを設計した。 標準マスク機能とテキスト機能とのアライメントを強化することで、モジュールはより効果的な融合を保証し、最終的に認識性能が向上する。 CAMを6つの標準テキスト認識ベンチマークで評価し,その有効性を実証した。 さらに、CAMはモデルサイズが小さいにもかかわらず、6つの挑戦的なデータセットに対して平均4.1%の性能向上による最先端手法よりも優れている。 本研究は,ロバストなシーンテキスト認識のための標準マスクガイダンスと機能改良手法を取り入れることの重要性を強調する。 コードはhttps://github.com/MelosY/CAMで公開されている。

Scene text recognition is a rapidly developing field that faces numerous challenges due to the complexity and diversity of scene text, including complex backgrounds, diverse fonts, flexible arrangements, and accidental occlusions. In this paper, we propose a novel approach called Class-Aware Mask-guided feature refinement (CAM) to address these challenges. Our approach introduces canonical class-aware glyph masks generated from a standard font to effectively suppress background and text style noise, thereby enhancing feature discrimination. Additionally, we design a feature alignment and fusion module to incorporate the canonical mask guidance for further feature refinement for text recognition. By enhancing the alignment between the canonical mask feature and the text feature, the module ensures more effective fusion, ultimately leading to improved recognition performance. We first evaluate CAM on six standard text recognition benchmarks to demonstrate its effectiveness. Furthermore, CAM exhibits superiority over the state-of-the-art method by an average performance gain of 4.1% across six more challenging datasets, despite utilizing a smaller model size. Our study highlights the importance of incorporating canonical mask guidance and aligned feature refinement techniques for robust scene text recognition. The code is available at https://github.com/MelosY/CAM.
翻訳日:2024-02-22 16:08:01 公開日:2024-02-21
# FlexHB:ハイパーパラメータ最適化のためのより効率的で柔軟なフレームワーク

FlexHB: a More Efficient and Flexible Framework for Hyperparameter Optimization ( http://arxiv.org/abs/2402.13641v1 )

ライセンス: Link先を確認
Yang Zhang, Haiyang Wu, Yuekui Yang(参考訳) ハイパーパラメータ最適化(HPO)問題を考えると、最適な構成を効率的に見つけるアルゴリズムをどう設計するか? ベイズ最適化(BO)と多要素BO法では,履歴評価に基づくサンプル構成に代理モデルを用いる。 近年の研究では, BOとHyperBand(HB)を統合することにより, 早期停止機構による評価が促進される。 しかし、これらの手法はデフォルトのハイパーバンドよりも適切な評価方式の利点を無視しており、boの能力は歪んだ評価結果によって制限されている。 本稿では,多相BOを限界まで押し上げる新しい手法であるFlexHBを提案するとともに,逐次Halving(SH)による早期停止のためのフレームワークを再設計する。 FlexHBの包括的研究は,1) 最適構成の探索効率を大幅に向上させ,(2) FlexBandフレームワーク(SHブラケットの自己適応的アロケーション,および現在および過去のSHプロシージャにおける構成のグローバルなランキング)により,アルゴリズムの柔軟性が向上し,常に性能が向上することを示した。 本手法は優れた効率を実現し,様々なhpoタスクにおいて他の手法よりも優れる。 実験の結果、FlexHBは最先端のMFES-HBとBOHBで最大6.9Xと1.1Xのスピードアップを達成することができた。

Given a Hyperparameter Optimization(HPO) problem, how to design an algorithm to find optimal configurations efficiently? Bayesian Optimization(BO) and the multi-fidelity BO methods employ surrogate models to sample configurations based on history evaluations. More recent studies obtain better performance by integrating BO with HyperBand(HB), which accelerates evaluation by early stopping mechanism. However, these methods ignore the advantage of a suitable evaluation scheme over the default HyperBand, and the capability of BO is still constrained by skewed evaluation results. In this paper, we propose FlexHB, a new method pushing multi-fidelity BO to the limit as well as re-designing a framework for early stopping with Successive Halving(SH). Comprehensive study on FlexHB shows that (1) our fine-grained fidelity method considerably enhances the efficiency of searching optimal configurations, (2) our FlexBand framework (self-adaptive allocation of SH brackets, and global ranking of configurations in both current and past SH procedures) grants the algorithm with more flexibility and improves the anytime performance. Our method achieves superior efficiency and outperforms other methods on various HPO tasks. Empirical results demonstrate that FlexHB can achieve up to 6.9X and 11.1X speedups over the state-of-the-art MFES-HB and BOHB respectively.
翻訳日:2024-02-22 16:07:39 公開日:2024-02-21
# Green AI: 異なるランタイムインフラストラクチャ間のDLモデルにおけるエネルギー消費に関する予備的研究

Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures ( http://arxiv.org/abs/2402.13640v1 )

ライセンス: Link先を確認
Negar Alizadeh and Fernando Castor(参考訳) PyTorchやTensorFlowといったディープラーニング(DL)フレームワークには、ターゲットハードウェア上でトレーニングされたモデルの実行、メモリの管理、データ転送、マルチアクセラレータの実行に責任を持つランタイムインフラストラクチャが含まれている。 さらに、トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは一般的なプラクティスです。 これにより、ランタイムインフラストラクチャを含むONNXや、さまざまなDLフレームワークや言語で使用可能な標準フォーマットとして機能するONNX Runtimeなどの交換フォーマットが導入された。 これらのランタイムインフラストラクチャは推論性能に大きな影響を及ぼすが、以前の論文ではそのエネルギー効率について検討していない。 本研究では,3つのDLモデルを用いて,よく知られた3つのDLフレームワークとONNXのランタイムインフラストラクチャにおけるエネルギー消費と推論時間を監視する。 本調査では,異なる実行プロバイダを使用することによる影響についても検討した。 dlの性能とエネルギー効率は予測が困難であることが判明した。 1つのフレームワーク、MXNetは、バッチサイズ1を使用してコンピュータビジョンモデルでPyTorchとTensorFlowの両方を上回っている。 しかし、バッチサイズ64により、PyTorchとMXNetは事実上区別不能になり、TensorFlowは一貫してパフォーマンスが向上している。 BERTでは、PyTorchが最高のパフォーマンスを示している。 モデルをONNXに変換するとパフォーマンスが大幅に向上するが、ONNX変換されたResNetモデルは64バッチサイズで、オリジナルのPyTorchモデルよりも約10%のエネルギーと時間を消費する。

Deep Learning (DL) frameworks such as PyTorch and TensorFlow include runtime infrastructures responsible for executing trained models on target hardware, managing memory, data transfers, and multi-accelerator execution, if applicable. Additionally, it is a common practice to deploy pre-trained models on environments distinct from their native development settings. This led to the introduction of interchange formats such as ONNX, which includes its runtime infrastructure, and ONNX Runtime, which work as standard formats that can be used across diverse DL frameworks and languages. Even though these runtime infrastructures have a great impact on inference performance, no previous paper has investigated their energy efficiency. In this study, we monitor the energy consumption and inference time in the runtime infrastructures of three well-known DL frameworks as well as ONNX, using three various DL models. To have nuance in our investigation, we also examine the impact of using different execution providers. We find out that the performance and energy efficiency of DL are difficult to predict. One framework, MXNet, outperforms both PyTorch and TensorFlow for the computer vision models using batch size 1, due to efficient GPU usage and thus low CPU usage. However, batch size 64 makes PyTorch and MXNet practically indistinguishable, while TensorFlow is outperformed consistently. For BERT, PyTorch exhibits the best performance. Converting the models to ONNX usually yields significant performance improvements but the ONNX converted ResNet model with batch size 64 consumes approximately 10% more energy and time than the original PyTorch model.
翻訳日:2024-02-22 16:07:11 公開日:2024-02-21
# 要求工学における組織ルールシステム

Unravelling Organisational Rule Systems in Requirements Engineering ( http://arxiv.org/abs/2402.13637v1 )

ライセンス: Link先を確認
J\"oran Lindeberg, Eric-Oluf Svee, Martin Henkel(参考訳) コンテキストとモチベーション: 複雑なITシステムのエンジニアリングに必要なものは、現代企業のコンテキストに存在する多くの曖昧で矛盾する組織ルールを管理する必要がある。 同時にitシステムは組織に影響を与え、組織がどのように働くべきかという新しいルールを設定します。 質問/証明: ITシステムの要件を集めるには、組織を管理する複雑なルールを理解する必要があります。 研究の疑問は: 組織的ルールの全体論的特性をどのように概念化できるか? 主要な考え方/結果:本稿では、複雑な組織的ルールを記述するのに使用できる組織的ルールシステムの概念を紹介する。 概念とその構成要素は概念的フレームワークとして提示され、その概念は概念的フレームワークダイアグラムに凝縮される。 フレームワークは批判的な文献レビューに基礎を置いている。 貢献: 概念的枠組みは、より広い研究課題の第一歩として、要求エンジニアが組織的ルールの影響を理解するのに役立つでしょう。

Context and motivation: Requirements engineering of complex IT systems needs to manage the many, and often vague and conflicting, organisational rules that exist in the context of a modern enterprise. At the same time, IT systems affect the organisation, essentially setting new rules on how the organisation should work. Question/problem: Gathering requirements for an IT system involves understanding the complex rules that govern an organisation. The research question is: How can the holistic properties of organisational rules be conceptualised? Principal ideas/results: This paper introduces the concept of organisational rule systems that may be used to describe complex organisational rules. The concept and its components are presented as a conceptual framework, which in turn is condensed into a conceptual framework diagram. The framework is grounded in a critical literature review. Contribution: The conceptual framework will, as a first step of a wider research agenda, help requirements engineers understand the influence of organisational rules.
翻訳日:2024-02-22 16:06:41 公開日:2024-02-21
# 視覚言語モデルにおけるジェンダーバイアス評価のための統一フレームワークとデータセット

A Unified Framework and Dataset for Assessing Gender Bias in Vision-Language Models ( http://arxiv.org/abs/2402.13636v1 )

ライセンス: Link先を確認
Ashutosh Sathe, Prachi Jain, Sunayana Sitaram(参考訳) 大規模視覚言語モデル(VLM)は、産業やアカデミックで広く採用されている。 本研究では,VLMにおけるジェンダー・プロフェッションバイアスを体系的に評価する統一的な枠組みを構築する。 画像からテキストへの推論,テキストから画像への推論,画像から画像への推論など,最新のvlmでサポートされているすべての推論モードを包含する。 テキストと画像の合成、高品質なデータセットを構築し、プロの行動間で性別の区別を曖昧にし、性別バイアスをベンチマークする。 近年の視覚言語モデル (VLM) のベンチマークでは、異なる入力出力モードが異なるバイアスの大きさと方向をもたらすことが観察された。 私たちの仕事は、VLMの改善における今後の進歩を、社会的に偏見のない表現を学ぶのに役立つことを願っています。 データとコードをリリースします。

Large vision-language models (VLMs) are widely getting adopted in industry and academia. In this work we build a unified framework to systematically evaluate gender-profession bias in VLMs. Our evaluation encompasses all supported inference modes of the recent VLMs, including image-to-text, text-to-text, text-to-image, and image-to-image. We construct a synthetic, high-quality dataset of text and images that blurs gender distinctions across professional actions to benchmark gender bias. In our benchmarking of recent vision-language models (VLMs), we observe that different input-output modalities result in distinct bias magnitudes and directions. We hope our work will help guide future progress in improving VLMs to learn socially unbiased representations. We will release our data and code.
翻訳日:2024-02-22 16:06:26 公開日:2024-02-21
# 医療における信頼できるAIのためのデータ品質評価のためのMETRICフレームワーク

The METRIC-framework for assessing data quality for trustworthy AI in medicine: a systematic review ( http://arxiv.org/abs/2402.13635v1 )

ライセンス: Link先を確認
Daniel Schwabe, Katinka Becker, Martin Seyferth, Andreas Kla{\ss}, Tobias Sch\"affter(参考訳) マシンラーニング(ML)と、より具体的には、ディープラーニング(DL)アプリケーションを私たちの生活のすべての主要領域に適用する作業が進行中です。 信頼できるAIの開発は、患者の生活に大きな影響を与えるため、医学において特に重要である。 信頼性は倫理的、技術的、プライバシー的要件を含む様々な側面に関係していますが、dlにおけるデータ品質(トレーニング/テスト)の重要性に重点を置いています。 データ品質はML製品の振る舞いを規定するので、データ品質の評価は医療AI製品の規制承認において重要な役割を果たす。 データベースPubMed と ACM Digital Library を用いて PRISMA ガイドラインに従って系統的なレビューを行う。 2362の研究では、62のレコードが認定基準を満たしている。 この文献から,データ品質フレームワークに関する既存の知識を合成し,医学におけるML応用の視点と組み合わせる。 その結果,医療用MLアプリケーションの開発者がデータセットを調査すべき15の認知次元からなる医療用トレーニングデータのための特化データ品質フレームワークであるMETRICフレームワークを提案する。 この知識は偏見を不公平な原因として減らし、堅牢性を高め、解釈可能性を高め、医学における信頼できるAIの基礎を築き上げる。 このような医療データセットの体系的な評価を規制承認プロセスに組み込むことで、ML製品の承認を加速し、新しい標準の基礎を構築する可能性がある。

The adoption of machine learning (ML) and, more specifically, deep learning (DL) applications into all major areas of our lives is underway. The development of trustworthy AI is especially important in medicine due to the large implications for patients' lives. While trustworthiness concerns various aspects including ethical, technical and privacy requirements, we focus on the importance of data quality (training/test) in DL. Since data quality dictates the behaviour of ML products, evaluating data quality will play a key part in the regulatory approval of medical AI products. We perform a systematic review following PRISMA guidelines using the databases PubMed and ACM Digital Library. We identify 2362 studies, out of which 62 records fulfil our eligibility criteria. From this literature, we synthesise the existing knowledge on data quality frameworks and combine it with the perspective of ML applications in medicine. As a result, we propose the METRIC-framework, a specialised data quality framework for medical training data comprising 15 awareness dimensions, along which developers of medical ML applications should investigate a dataset. This knowledge helps to reduce biases as a major source of unfairness, increase robustness, facilitate interpretability and thus lays the foundation for trustworthy AI in medicine. Incorporating such systematic assessment of medical datasets into regulatory approval processes has the potential to accelerate the approval of ML products and builds the basis for new standards.
翻訳日:2024-02-22 16:06:12 公開日:2024-02-21
# $\infty$Bench: 100万トークンを超えて長期のコンテキスト評価を拡張する

$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens ( http://arxiv.org/abs/2402.13718v1 )

ライセンス: Link先を確認
Xinrong Zhang and Yingfa Chen and Shengding Hu and Zihang Xu and Junhao Chen and Moo Khai Hao and Xu Han and Zhen Leng Thai and Shuo Wang and Zhiyuan Liu and Maosong Sun(参考訳) 長期にわたる処理と推論は、文書理解やエージェント構築など、大規模言語モデル(LLM)の多くの実践的応用にとって不可欠である。 LLMのプロセスコンテキストを100K以上のトークンで作成するという最近の取り組みにもかかわらず、この長期コンテキスト能力を評価するための標準ベンチマークが現在存在しない。 既存の公開ベンチマークは10Kトークンのコンテキストに重点を置いており、より長いコンテキストを処理する際のLCMの評価と比較を制限している。 本稿では,100K トークンを超える平均データ長を特徴とする最初の LLM ベンチマークである $\infty$Bench を提案する。 $\infty$Benchは、英語と中国語の両方で提示される様々なドメインにまたがる合成的で現実的なタスクである。 $\infty$Benchのタスクは、コンテキスト内の長い依存関係を十分に理解し、これらのタスクには不十分なコンテキストから限られた数のパスを取得するように設計されている。 我々の実験では、$\infty$Benchに基づいて、長いコンテキストの処理に適した最先端のプロプライエタリかつオープンソースのLLMを評価した。 その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。 さらに,llms処理の長期化に関する3つの興味深い解析を行った。

Processing and reasoning over long contexts is crucial for many practical applications of Large Language Models (LLMs), such as document comprehension and agent construction. Despite recent strides in making LLMs process contexts with more than 100K tokens, there is currently a lack of a standardized benchmark to evaluate this long-context capability. Existing public benchmarks typically focus on contexts around 10K tokens, limiting the assessment and comparison of LLMs in processing longer contexts. In this paper, we propose $\infty$Bench, the first LLM benchmark featuring an average data length surpassing 100K tokens. $\infty$Bench comprises synthetic and realistic tasks spanning diverse domains, presented in both English and Chinese. The tasks in $\infty$Bench are designed to require well understanding of long dependencies in contexts, and make simply retrieving a limited number of passages from contexts not sufficient for these tasks. In our experiments, based on $\infty$Bench, we evaluate the state-of-the-art proprietary and open-source LLMs tailored for processing long contexts. The results indicate that existing long context LLMs still require significant advancements to effectively process 100K+ context. We further present three intriguing analyses regarding the behavior of LLMs processing long context.
翻訳日:2024-02-22 15:59:42 公開日:2024-02-21
# RESTRuler: Web APIにおけるRESTfulデザインルールの違反を自動的に識別する

RESTRuler: Towards Automatically Identifying Violations of RESTful Design Rules in Web APIs ( http://arxiv.org/abs/2402.13710v1 )

ライセンス: Link先を確認
Justus Bogner, Sebastian Kotstein, Daniel Abajirov, Timothy Ernst, Manuel Merkel(参考訳) HTTPベースのRESTful APIは、アプリケーションやソフトウェアサービスでデータと機能を利用できるようにするための最も重要な方法の1つです。 しかし、API設計の品質はAPIの理解性とユーザビリティに強く影響を与え、多くのルールが規定されている。 多くの設計ルールの有効性を示す証拠はあるが、実践者が設計における規則違反を特定することは依然として困難である。 そこで我々は,静的解析を用いてオープンAPI記述における設計規則違反を検出するJavaベースのオープンソースツールであるRESTRulerを提案する。 現在のプロトタイプは、単純な構文チェックを超えて、部分的に自然言語処理に依存する14のルールをサポートしている。 モジュールアーキテクチャにより、新しいルールの実装も容易になる。 RESTRulerを評価するために、2300以上の公開OpenAPI記述によるベンチマークを実施し、7人のAPI専門家に111の複雑なルール違反の構築を依頼しました。 堅牢性のために、RESTRulerは、使用済みの現実世界のOpenAPI定義の99%をうまく分析した。 パフォーマンス効率の面では、ほとんどのファイルでうまく動作し、cpuとram使用量が少ない23秒未満で84%を解析できた。 最後に、有効性のために、RESTRulerは91%の精度(ルール毎に60%から100%まで)と68%のリコール(46%から100%まで)を達成した。 これらのルール実装の違いに基づいて、我々は改善の機会をいくつか挙げた。 RESTRulerはまだ研究のプロトタイプであるが、この評価はツールがエラーに対して非常に堅牢であり、ほとんどのAPIでリソース効率が良く、正確で適切なリコールを示していることを示唆している。 実践者はAPI設計の質を向上させるためにそれを使うことができます。

RESTful APIs based on HTTP are one of the most important ways to make data and functionality available to applications and software services. However, the quality of the API design strongly impacts API understandability and usability, and many rules have been specified for this. While we have evidence for the effectiveness of many design rules, it is still difficult for practitioners to identify rule violations in their design. We therefore present RESTRuler, a Java-based open-source tool that uses static analysis to detect design rule violations in OpenAPI descriptions. The current prototype supports 14 rules that go beyond simple syntactic checks and partly rely on natural language processing. The modular architecture also makes it easy to implement new rules. To evaluate RESTRuler, we conducted a benchmark with over 2,300 public OpenAPI descriptions and asked 7 API experts to construct 111 complicated rule violations. For robustness, RESTRuler successfully analyzed 99% of the used real-world OpenAPI definitions, with some failing due to excessive size. For performance efficiency, the tool performed well for the majority of files and could analyze 84% in less than 23 seconds with low CPU and RAM usage. Lastly, for effectiveness, RESTRuler achieved a precision of 91% (ranging from 60% to 100% per rule) and recall of 68% (ranging from 46% to 100%). Based on these variations between rule implementations, we identified several opportunities for improvements. While RESTRuler is still a research prototype, the evaluation suggests that the tool is quite robust to errors, resource-efficient for most APIs, and shows good precision and decent recall. Practitioners can use it to improve the quality of their API design.
翻訳日:2024-02-22 15:59:07 公開日:2024-02-21
# SaGE: 大規模言語モデルにおけるモラル一貫性の評価

SaGE: Evaluating Moral Consistency in Large Language Models ( http://arxiv.org/abs/2402.13709v1 )

ライセンス: Link先を確認
Vamshi Krishna Bonagiri, Sreeram Vennam, Priyanshul Govil, Ponnurangam Kumaraguru, Manas Gaur(参考訳) 会話システムにおける大規模言語モデル(llm)の印象的な能力を示す最近の進歩にもかかわらず、最先端のllmでさえ、その世代において道徳的に一貫性がなく、信頼性(および一般的に信頼性)に疑問を呈している。 LLM評価における以前の研究は、特定のタスクの精度を計測する地平データの開発に重点を置いていた。 しかしながら、普遍的に合意された回答を欠く道徳的シナリオでは、モデルの応答の一貫性が信頼性に不可欠となる。 この問題に対処するために,モデルの道徳的整合性を測定するために,"Rules of Thumb"(RoTs)の概念に基づくセマンティックグラフエントロピー(SaGE)という情報理論尺度を提案する。 RoTはモデルによって学習された抽象原則であり、意思決定戦略を効果的に説明するのに役立ちます。 この範囲で、道徳的質問やLSMによる回答、そしてこれらのモデルが従うRoTを含むMoral Consistency Corpus (MCC)を構築した。 さらに、SaGEの一般化可能性を説明するために、TruthfulQAとHellaSwagという2つの一般的なデータセット上でのLLM一貫性を調査します。 この結果から,タスクの正確性や一貫性は独立した問題であり,これらの問題をさらに検討する必要があることが明らかとなった。

Despite recent advancements showcasing the impressive capabilities of Large Language Models (LLMs) in conversational systems, we show that even state-of-the-art LLMs are morally inconsistent in their generations, questioning their reliability (and trustworthiness in general). Prior works in LLM evaluation focus on developing ground-truth data to measure accuracy on specific tasks. However, for moral scenarios that often lack universally agreed-upon answers, consistency in model responses becomes crucial for their reliability. To address this issue, we propose an information-theoretic measure called Semantic Graph Entropy (SaGE), grounded in the concept of "Rules of Thumb" (RoTs) to measure a model's moral consistency. RoTs are abstract principles learned by a model and can help explain their decision-making strategies effectively. To this extent, we construct the Moral Consistency Corpus (MCC), containing 50K moral questions, responses to them by LLMs, and the RoTs that these models followed. Furthermore, to illustrate the generalizability of SaGE, we use it to investigate LLM consistency on two popular datasets -- TruthfulQA and HellaSwag. Our results reveal that task-accuracy and consistency are independent problems, and there is a dire need to investigate these issues further.
翻訳日:2024-02-22 15:58:18 公開日:2024-02-21
# 協調機械学習におけるロバスト性と学習の衝突について

On the Conflict of Robustness and Learning in Collaborative Machine Learning ( http://arxiv.org/abs/2402.13700v1 )

ライセンス: Link先を確認
Mathilde Raynal and Carmela Troncoso(参考訳) コラボレーション機械学習(CML)は、参加者がトレーニングデータをプライベートに保ちながら、機械学習モデルを共同でトレーニングすることを可能にする。 健康関連のアプリケーションなど、プライバシが強い要件であるシナリオでは、安全性も大きな関心事です。 これは、プライバシー保護のCMLプロセスが、潜在的に信頼できない参加者の存在下で、正確で信頼できる決定を出力するモデルを生成する必要があることを意味する。 この問題への対応として、研究者はトレーニングプロセスを損なう悪質な貢献をフィルターするメトリクスに依存する \textit{robust aggregator}の使用を提案する。 本研究では,文学におけるロバストアグリゲータの景観を定式化する。 私たちの形式化によって、既存のロバストアグリゲータが目標を達成できないこと、すなわち、ターゲットとする悪意のあるアップデートを正確に識別できない距離ベースのメトリクスを使用するか、あるいは、cml参加者が他人から学ぶ能力と直接衝突し、学習を妨げることなく操作のリスクを排除できない方法を提案することができます。

Collaborative Machine Learning (CML) allows participants to jointly train a machine learning model while keeping their training data private. In scenarios where privacy is a strong requirement, such as health-related applications, safety is also a primary concern. This means that privacy-preserving CML processes must produce models that output correct and reliable decisions \emph{even in the presence of potentially untrusted participants}. In response to this issue, researchers propose to use \textit{robust aggregators} that rely on metrics which help filter out malicious contributions that could compromise the training process. In this work, we formalize the landscape of robust aggregators in the literature. Our formalization allows us to show that existing robust aggregators cannot fulfill their goal: either they use distance-based metrics that cannot accurately identify targeted malicious updates; or propose methods whose success is in direct conflict with the ability of CML participants to learn from others and therefore cannot eliminate the risk of manipulation without preventing learning.
翻訳日:2024-02-22 15:57:36 公開日:2024-02-21
# 量子ドットデバイス計測のための説明可能な分類手法

Explainable Classification Techniques for Quantum Dot Device Measurements ( http://arxiv.org/abs/2402.13699v1 )

ライセンス: Link先を確認
Daniel Schug, Tyler J. Kovach, M. A. Wolfe, Jared Benson, Sanghyeok Park, J. P. Dodson, J. Corrigan, M. A. Eriksson, Justyna P. Zwolak(参考訳) 物理科学では、画像データのロバストな特徴表現の必要性が増大している: 2次元データの一般的な意味での画像取得は、我々がここで考慮している量子情報科学を含む、多くの分野にまたがっている。 このような場合、従来の画像の特徴は広く活用されているが、その利用はニューラルネットワークベースの技術に取って代わられている。 このトレードオフを改善するために,説明可能な特徴をもたらす合成データベース手法を提案する。 本手法は,説明可能なブースティングマシン (ebms) を用いて, 精度を犠牲にすることなく, 優れた説明性が得られることを示す。 具体的には,現在の発達段階において人間の介入が必要となる量子ドットチューニングの文脈において,この手法には有意義なメリットがあることを示す。

In the physical sciences, there is an increased need for robust feature representations of image data: image acquisition, in the generalized sense of two-dimensional data, is now widespread across a large number of fields, including quantum information science, which we consider here. While traditional image features are widely utilized in such cases, their use is rapidly being supplanted by Neural Network-based techniques that often sacrifice explainability in exchange for high accuracy. To ameliorate this trade-off, we propose a synthetic data-based technique that results in explainable features. We show, using Explainable Boosting Machines (EBMs), that this method offers superior explainability without sacrificing accuracy. Specifically, we show that there is a meaningful benefit to this technique in the context of quantum dot tuning, where human intervention is necessary at the current stage of development.
翻訳日:2024-02-22 15:56:22 公開日:2024-02-21
# ゼロショットパノプティクスとセマンティックセグメンテーションのための一般化可能なセマンティックビジョンクエリ生成

Generalizable Semantic Vision Query Generation for Zero-shot Panoptic and Semantic Segmentation ( http://arxiv.org/abs/2402.13697v1 )

ライセンス: Link先を確認
Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Hiroshi Murase(参考訳) zero-shot panoptic segmentation (zps) は、前景のインスタンスや背景物を認識することを目的としている。 視覚的データのスパーシティと目に見えるカテゴリから見えないカテゴリへの一般化の難しさのため、この課題は依然として困難である。 未知のクラスにもっと一般化するために,条件付きトークンアライメントとサイクルトランジション(concat)を提案し,汎用的なセマンティックビジョンクエリを生成する。 まず、特徴抽出器はConによって訓練され、ターゲットクエリを提供するためのビジョンとセマンティクスをリンクする。 形式的には、conは、セマンティッククエリと、完全かつマスキングされた画像から抽出されたCLIPビジュアルCLSトークンとを整合させる。 未知のカテゴリの欠如に対処するには、ジェネレータが必要である。 しかし、疑似視覚クエリ、すなわち見えないカテゴリのための視覚クエリを合成する際のギャップの1つは、セマンティック埋め込みによるきめ細かい視覚的詳細を記述することである。 そこで,我々はCATにアプローチして,セマンティック・ビジョン・セマンティックな方法でジェネレータを訓練する。 セマンティック・ビジョンでは、視覚の粒度をモデル化するために、擬似視覚クエリをセグメントを含む対応するターゲットで引っ張り出し、セグメントを押さずに視覚の粒度をモデル化する。 生成したクエリがセマンティック情報を確実に保持するために、視覚・セマンティックでは、擬似視覚クエリはセマンティックにマッピングされ、実際のセマンティック埋め込みによって管理される。 ZPSの実験はSOTAを超える5.2%hPQの増加を達成した。 また,インダクティブzpsとopen-vocabulary semantic segmentationについて検討し,テストの2倍の速度で比較結果を得た。

Zero-shot Panoptic Segmentation (ZPS) aims to recognize foreground instances and background stuff without images containing unseen categories in training. Due to the visual data sparsity and the difficulty of generalizing from seen to unseen categories, this task remains challenging. To better generalize to unseen classes, we propose Conditional tOken aligNment and Cycle trAnsiTion (CONCAT), to produce generalizable semantic vision queries. First, a feature extractor is trained by CON to link the vision and semantics for providing target queries. Formally, CON is proposed to align the semantic queries with the CLIP visual CLS token extracted from complete and masked images. To address the lack of unseen categories, a generator is required. However, one of the gaps in synthesizing pseudo vision queries, ie, vision queries for unseen categories, is describing fine-grained visual details through semantic embeddings. Therefore, we approach CAT to train the generator in semantic-vision and vision-semantic manners. In semantic-vision, visual query contrast is proposed to model the high granularity of vision by pulling the pseudo vision queries with the corresponding targets containing segments while pushing those without segments away. To ensure the generated queries retain semantic information, in vision-semantic, the pseudo vision queries are mapped back to semantic and supervised by real semantic embeddings. Experiments on ZPS achieve a 5.2% hPQ increase surpassing SOTA. We also examine inductive ZPS and open-vocabulary semantic segmentation and obtain comparative results while being 2 times faster in testing.
翻訳日:2024-02-22 15:55:56 公開日:2024-02-21
# マイクロサービスAPIパターンは理解可能性にどのように影響するか? 制御された実験

How Do Microservice API Patterns Impact Understandability? A Controlled Experiment ( http://arxiv.org/abs/2402.13696v1 )

ライセンス: Link先を確認
Justus Bogner, Pawel W\'ojcik, Olaf Zimmermann(参考訳) マイクロサービスはリモートアプリケーションプログラミングインターフェース(api)を通じて、httpや非同期メッセージング技術に基づいた機能を公開する。 このデザイン空間で繰り返し発生する問題を解決するために、マイクロサービスAPIパターン(MAP)が登場し、APIデザインコミュニティの集合的な経験を捉えている。 現時点では,これらのパターンが理解可能性やapiユーザビリティに与える影響など,その有効性に関する実証的な証拠が不足している。 そこで我々は、6つのマイクロサービスパターンを用いた制御実験を行い、65の多様な参加者による理解可能性への影響を評価した。 さらに,長年の専門的経験やMAP経験などの人口動態が,パターンの影響について検討したかった。 パターン毎に、パターンバージョン"P"と、機能的に等価な非パターンバージョン"N"(合計24)の2つのAPI例を構築しました。 クロスオーバー設計に基づいて、参加者は時間を測定しながら理解的な質問に答えなければなりませんでした。 6パターンのうち5パターンにおいて、参加者は「P」に対してより早く、より正確に答えることができ、理解可能性に有意なポジティブな影響が認められた。 しかし、効果の大きさはほとんど小さく、1つのパターンが中間効果を示している。 パフォーマンスと人口統計の相関は、特定のパターンがさらなる複雑さをもたらす可能性があることを示唆している。 これはMAPやその他のパターンに関するトレーニングや教育に重要な意味を持つ。

Microservices expose their functionality via remote Application Programming Interfaces (APIs), e.g., based on HTTP or asynchronous messaging technology. To solve recurring problems in this design space, Microservice API Patterns (MAPs) have emerged to capture the collective experience of the API design community. At present, there is a lack of empirical evidence for the effectiveness of these patterns, e.g., how they impact understandability and API usability. We therefore conducted a controlled experiment with 6 microservice patterns to evaluate their impact on understandability with 65 diverse participants. Additionally, we wanted to study how demographics like years of professional experience or experience with MAPs influence the effects of the patterns. Per pattern, we constructed two API examples, each in a pattern version "P" and a functionally equivalent non-pattern version "N" (24 in total). Based on a crossover design, participants had to answer comprehension questions, while we measured the time. For five of the six patterns, we identified a significant positive impact on understandability, i.e., participants answered faster and / or more correctly for "P". However, effect sizes were mostly small, with one pattern showing a medium effect. The correlations between performance and demographics seem to suggest that certain patterns may introduce additional complexity; people experienced with MAPs will profit more from their effects. This has important implications for training and education around MAPs and other patterns.
翻訳日:2024-02-22 15:55:22 公開日:2024-02-21
# 複雑性の増大とkrylov-wigner関数

Complexity Growth and the Krylov-Wigner function ( http://arxiv.org/abs/2402.13694v1 )

ライセンス: Link先を確認
Ritam Basu, Anirban Ganguly, Souparna Nath, Onkar Parrikar(参考訳) 基底の選択を持つ$d$-次元ヒルベルト空間の任意の状態に対して、ウィグナー函数の離散バージョン(離散位相空間上の状態を表す準確率分布)を定義することができる。 ウィグナー関数は一般に負の値を取ることができ、ウィグナー関数のネガティビティの量は量子計算のリソースとして操作的な意味を持つ。 本稿では, カオスハミルトニアンによる時間進化下での一般的な初期状態に対するウィグナー負性度の成長について検討する。 我々は、krylov-wigner関数、すなわち(適切な位相を持つ)krylov基底に関して定義されるwigner関数を導入し、この基底の選択が、大きな$d$制限でwigner negativityの早期成長を最小化することを示す。 これを(適切な位相を持つ)クリロフ基底が、大まかに$D$でカオス量子力学の双対な半古典的な記述に理想的に適しているという証拠とみなす。 また,初期純状態に対するランダム行列論におけるクリロフ・ウィグナー関数の時間発展とそのネガティビティを数値的に研究した。 O(\sqrt{D})$ の時点で徐々に上昇し、その後急傾斜にぶつかり、最終的にその上界の $\sqrt{D}$ に近い飽和する。

For any state in a $D$-dimensional Hilbert space with a choice of basis, one can define a discrete version of the Wigner function -- a quasi-probability distribution which represents the state on a discrete phase space. The Wigner function can, in general, take on negative values, and the amount of negativity in the Wigner function has an operational meaning as a resource for quantum computation. In this note, we study the growth of Wigner negativity for a generic initial state under time evolution with chaotic Hamiltonians. We introduce the Krylov-Wigner function, i.e., the Wigner function defined with respect to the Krylov basis (with appropriate phases), and show that this choice of basis minimizes the early time growth of Wigner negativity in the large $D$ limit. We take this as evidence that the Krylov basis (with appropriate phases) is ideally suited for a dual, semi-classical description of chaotic quantum dynamics at large $D$. We also numerically study the time evolution of the Krylov-Wigner function and its negativity in random matrix theory for an initial pure state. We observe that the negativity broadly shows three phases: it rises gradually for a time of $O(\sqrt{D})$, then hits a sharp ramp and finally saturates close to its upper bound of $\sqrt{D}$.
翻訳日:2024-02-22 15:54:58 公開日:2024-02-21
# CMNER: ソーシャルメディアに基づく中国のマルチモーダルNERデータセット

CMNER: A Chinese Multimodal NER Dataset based on Social Media ( http://arxiv.org/abs/2402.13693v1 )

ライセンス: Link先を確認
Yuanze Ji, Bobo Li, Jun Zhou, Fei Li, Chong Teng, Donghong Ji(参考訳) マルチモーダル名前付きエンティティ認識(multimodal named entity recognition, mner)は、テキストから名前付きエンティティを抽出するための重要なタスクである。 それでも、中国のMNERのデータ量は、この自然言語処理タスクの中国藩内での進歩を著しく妨げている。 そこで本研究では,中国最大のソーシャルメディアプラットフォームであるWeiboから得られたデータを利用して,中国のマルチモーダルNERデータセット(CMNER)をコンパイルする。 データセットは、5000のWeiboポストと18,326の対応画像からなる。 エンティティは、人、場所、組織、雑種という4つの異なるカテゴリに分類される。 我々は,CMNERのベースライン実験を行い,NERのイメージを組み込むことの有効性を実証した。 さらに,公開可能な英語MNERデータセット(Twitter2015)の言語間実験を行い,その結果,中国語と英語のマルチモーダルNERデータがNERモデルの性能を相互に向上できるという仮説を裏付けた。

Multimodal Named Entity Recognition (MNER) is a pivotal task designed to extract named entities from text with the support of pertinent images. Nonetheless, a notable paucity of data for Chinese MNER has considerably impeded the progress of this natural language processing task within the Chinese domain. Consequently, in this study, we compile a Chinese Multimodal NER dataset (CMNER) utilizing data sourced from Weibo, China's largest social media platform. Our dataset encompasses 5,000 Weibo posts paired with 18,326 corresponding images. The entities are classified into four distinct categories: person, location, organization, and miscellaneous. We perform baseline experiments on CMNER, and the outcomes underscore the effectiveness of incorporating images for NER. Furthermore, we conduct cross-lingual experiments on the publicly available English MNER dataset (Twitter2015), and the results substantiate our hypothesis that Chinese and English multimodal NER data can mutually enhance the performance of the NER model.
翻訳日:2024-02-22 15:54:34 公開日:2024-02-21
# 1次元畳み込みニューラルネットワークを用いた外惑星パラメータの計算

Computing Transiting Exoplanet Parameters with 1D Convolutional Neural Networks ( http://arxiv.org/abs/2402.13673v1 )

ライセンス: Link先を確認
Santiago Iglesias \'Alvarez, Enrique D\'iez Alonso, Mar\'ia Luisa S\'anchez Rodr\'iguez, Javier Rodr\'iguez Rodr\'iguez, Sa\'ul P\'erez Fern\'andez and Francisco Javier de Cos Juez(参考訳) トランジット法は、恒星の光曲線を分析して惑星系の検出と特徴づけを可能にする。 畳み込みニューラルネットワークは、これらの分析を自動化するための実行可能なソリューションを提供するようだ。 本研究では、トランジット様信号が注入されたシミュレーション光曲線で動作する2つの1次元畳み込みニューラルネットワークモデルを提案する。 1つのモデルは完全な光曲線を演算し、軌道周期を推定し、もう1つのモデルは位相折りたたみ光曲線を演算し、軌道の半大軸と惑星と恒星の半径比の2乗を推定する。 どちらのモデルも、実際のデータを扱うために、TESSの光曲線から確認された惑星の実際のデータでテストされた。 その結果, 1次元CNNは, 主星の抑止光曲線から外惑星の通過を特徴付けることができ, さらに, 現在の検出および特徴付けアルゴリズムと比較して, 所要時間と計算コストを低減できることがわかった。

The transit method allows the detection and characterization of planetary systems by analyzing stellar light curves. Convolutional neural networks appear to offer a viable solution for automating these analyses. In this research, two 1D convolutional neural network models, which work with simulated light curves in which transit-like signals were injected, are presented. One model operates on complete light curves and estimates the orbital period, and the other one operates on phase-folded light curves and estimates the semimajor axis of the orbit and the square of the planet-to-star radius ratio. Both models were tested on real data from TESS light curves with confirmed planets to ensure that they are able to work with real data. The results obtained show that 1D CNNs are able to characterize transiting exoplanets from their host star's detrended light curve and, furthermore, reducing both the required time and computational costs compared with the current detection and characterization algorithms.
翻訳日:2024-02-22 15:54:17 公開日:2024-02-21
# semeval-2024タスク8 : 多言語機械生成テキスト検出のための微調整llm

KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection ( http://arxiv.org/abs/2402.13671v1 )

ライセンス: Link先を確認
Michal Spiegel and Dominik Macko(参考訳) SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。 このような検出は、言語モデル(LLM)の潜在的な誤用を防ぐために重要である。 我々は,テキスト分類において,言語識別とより小さなLLMのパラメータ効率の微調整を利用して,この課題に対処してきた。 さらに、言語ごとの分類閾値校正を用いて、微調整モデル予測と統計的検出指標を一意に組み合わせ、システム検出性能の一般化を図る。 提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。

SemEval-2024 Task 8 is focused on multigenerator, multidomain, and multilingual black-box machine-generated text detection. Such a detection is important for preventing a potential misuse of large language models (LLMs), the newest of which are very capable in generating multilingual human-like texts. We have coped with this task in multiple ways, utilizing language identification and parameter-efficient fine-tuning of smaller LLMs for text classification. We have further used the per-language classification-threshold calibration to uniquely combine fine-tuned models predictions with statistical detection metrics to improve generalization of the system detection performance. Our submitted method achieved competitive results, ranking at the fourth place, just under 1 percentage point behind the winner.
翻訳日:2024-02-22 15:54:00 公開日:2024-02-21
# 言語モデルファインチューニングにおける自己蒸留ブリッジの分布ギャップ

Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning ( http://arxiv.org/abs/2402.13669v1 )

ライセンス: Link先を確認
Zhaorui Yang, Qian Liu, Tianyu Pang, Han Wang, Haozhe Feng, Minfeng Zhu, Wei Chen(参考訳) 大規模言語モデル(LLM)の急増は自然言語処理に革命をもたらしたが、特定のタスクに対する微調整は、パフォーマンスのバランスと一般的な命令追従能力の維持という課題に直面することが多い。 本稿では,タスクデータセットとLCM間の分散ギャップが主な原因であると仮定する。 この問題に対処するため,我々は,モデル自身が生成した蒸留データセットに微調整を導くことで,分散ギャップを橋渡しする新しい手法である自己蒸留微調整(sdft)を導入する。 各種ベンチマークにおけるLlama-2-chatモデルによる実験結果から,SDFTはバニラ微調整に比べて下流タスクにおいて同等あるいは優れた性能を達成しつつ,破滅的な忘れを効果的に軽減することが示された。 さらに、sdftはllmの有用性と安全性アライメントを維持する可能性を示す。 私たちのコードは \url{https://github.com/sail-sg/sdft} で利用可能です。

The surge in Large Language Models (LLMs) has revolutionized natural language processing, but fine-tuning them for specific tasks often encounters challenges in balancing performance and preserving general instruction-following abilities. In this paper, we posit that the distribution gap between task datasets and the LLMs serves as the primary underlying cause. To address the problem, we introduce Self-Distillation Fine-Tuning (SDFT), a novel approach that bridges the distribution gap by guiding fine-tuning with a distilled dataset generated by the model itself to match its original distribution. Experimental results on the Llama-2-chat model across various benchmarks demonstrate that SDFT effectively mitigates catastrophic forgetting while achieving comparable or superior performance on downstream tasks compared to the vanilla fine-tuning. Moreover, SDFT demonstrates the potential to maintain the helpfulness and safety alignment of LLMs. Our code is available at \url{https://github.com/sail-sg/sdft}.
翻訳日:2024-02-22 15:53:44 公開日:2024-02-21
# GCOF:大規模言語モデルを用いた複写用セルフイテレーティブテキスト生成

GCOF: Self-iterative Text Generation for Copywriting Using Large Language Model ( http://arxiv.org/abs/2402.13667v1 )

ライセンス: Link先を確認
Jianghui Zhou, Ya Gao, Jie Liu, Xuemin Zhao, Zhaohua Yang, Yue Wu, Lirong Shi(参考訳) ChatGPTのような大規模言語モデル(LLM)は、マーケティングコピーの生成を大幅に単純化しているが、効果的に顧客を惹きつけるようなドメイン固有の要求を満たすコンテンツを生成することは大きな課題である。 本稿では,マーケティングコピー作成の効率性とエンゲージメントを高めるために設計された遺伝的コピー最適化フレームワーク(GCOF)を紹介する。 LLMのプロンプト内で、明示的な特徴工学を行う。 さらに,遺伝的アルゴリズム(GA)のクロスオーバー演算子を改良し,GCOFに統合して自動機能工学を実現する。 この統合により、マーケティングコピーの自己改善が容易になる。 オンライン検索の結果から,本フレームワークで作成したコピーはクリックスルー率(CTR)が平均50 %以上向上することがわかった。

Large language models(LLM) such as ChatGPT have substantially simplified the generation of marketing copy, yet producing content satisfying domain specific requirements, such as effectively engaging customers, remains a significant challenge. In this work, we introduce the Genetic Copy Optimization Framework (GCOF) designed to enhance both efficiency and engagememnt of marketing copy creation. We conduct explicit feature engineering within the prompts of LLM. Additionally, we modify the crossover operator in Genetic Algorithm (GA), integrating it into the GCOF to enable automatic feature engineering. This integration facilitates a self-iterative refinement of the marketing copy. Compared to human curated copy, Online results indicate that copy produced by our framework achieves an average increase in click-through rate (CTR) of over $50\%$.
翻訳日:2024-02-22 15:53:27 公開日:2024-02-21
# 測定の不確実性:物理・仮想計測の不確実性に関連して

Measurement Uncertainty: Relating the uncertainties of physical and virtual measurements ( http://arxiv.org/abs/2402.13666v1 )

ライセンス: Link先を確認
Simon Cramer, Tobias M\"uller and Robert H. Schmitt(参考訳) 工業的に大量生産される製品の文脈では、品質管理は、大きなバッチから小さなサンプルを物理的に検査し、バッチの品質適合性について推論することに基づいている。 物理検査と機械学習モデルからの予測を補完する場合、予測の不確実性が分かっていることが重要である。 さもなければ、確立された品質管理概念の適用は合法ではない。 決定論的(機械学習)モデルは予測の不確実性の定量化に欠けており、したがって不適当である。 確率的(機械学習)モデルは、予測とともに予測の不確実性を提供する。 しかし、物理検査の測定の不確かさと、品質管理における確率モデルの予測不確かさとの間には、簡潔な関係が欠落している。 本稿では,確率論的(機械学習)モデルの予測的不確実性が,身体検査の不確実性の測定とどのように関係しているかを示す。 これにより、仮想検査に確率モデルを使用することが可能になり、既存の品質管理概念に統合される。 これにより、プロセスデータに基づく品質特性の仮想計測を行い、100%の検査率を達成することができる。 予測品質の分野では、仮想測定は非常に興味深い。 その結果、サンプリング率の低い物理的検査には、100%の検査率を許容する仮想的な測定が伴うことができる。 欠陥のある製品や部品が即座に識別され、今後のプロセスステップが中止されるため、特に複雑なプロセスチェーンに実質的な価値を加えます。

In the context of industrially mass-manufactured products, quality management is based on physically inspecting a small sample from a large batch and reasoning about the batch's quality conformance. When complementing physical inspections with predictions from machine learning models, it is crucial that the uncertainty of the prediction is known. Otherwise, the application of established quality management concepts is not legitimate. Deterministic (machine learning) models lack quantification of their predictive uncertainty and are therefore unsuitable. Probabilistic (machine learning) models provide a predictive uncertainty along with the prediction. However, a concise relationship is missing between the measurement uncertainty of physical inspections and the predictive uncertainty of probabilistic models in their application in quality management. Here, we show how the predictive uncertainty of probabilistic (machine learning) models is related to the measurement uncertainty of physical inspections. This enables the use of probabilistic models for virtual inspections and integrates them into existing quality management concepts. Thus, we can provide a virtual measurement for any quality characteristic based on the process data and achieve a 100 percent inspection rate. In the field of Predictive Quality, the virtual measurement is of great interest. Based on our results, physical inspections with a low sampling rate can be accompanied by virtual measurements that allow an inspection rate of 100 percent. We add substantial value, especially to complex process chains, as faulty products/parts are identified promptly and upcoming process steps can be aborted.
翻訳日:2024-02-22 15:53:14 公開日:2024-02-21
# 粗面に隠されたGem:IDEのアンチャートオアシスとしての計算ノートブック

Hidden Gems in the Rough: Computational Notebooks as an Uncharted Oasis for IDEs ( http://arxiv.org/abs/2402.13739v1 )

ライセンス: Link先を確認
Sergey Titov, Konstantin Grotov, Ashwin Prasad S. Venkatesh(参考訳) 本稿では,統合開発環境(IDE)における計算ノートブックのさらなる開発の可能性について概説する。 我々はノートブックとideの統合について話し、実験の促進、協調機能の追加、コード理解の改善という3つの主な領域に焦点を当てた。 ノートブックのより良いサポートはノートブックに利益をもたらすだけでなく、ノートブックにネイティブな新しい開発プロセスをサポートすることでIDEを強化することを提案する。 結論として、より実験指向のノートブックプロセスにIDEを適用することで、AIによるプログラミングの未来に備えることを提案する。

In this paper, we outline potential ways for the further development of computational notebooks in Integrated Development Environments (IDEs). We discuss notebooks integration with IDEs, focusing on three main areas: facilitating experimentation, adding collaborative features, and improving code comprehension. We propose that better support of notebooks will not only benefit the notebooks, but also enhance IDEs by supporting new development processes native to notebooks. In conclusion, we suggest that adapting IDEs for more experimentation-oriented notebook processes will prepare them for the future of AI-powered programming.
翻訳日:2024-02-22 15:44:56 公開日:2024-02-21
# SRNDiff:条件拡散モデルによる短期降雨予報

SRNDiff: Short-term Rainfall Nowcasting with Condition Diffusion Model ( http://arxiv.org/abs/2402.13737v1 )

ライセンス: Link先を確認
Xudong Ling, Chaorong Li, Fengqing Qin, Peng Yang, Yuanyuan Huang(参考訳) 拡散モデルは高品質で現実的なサンプルを生成できるため、画像生成において広く使われている。 これとは対照的に,画像品質の制限のある生成型逆向ネットワーク (gans) と変分オートエンコーダ (vaes) は,降水予測タスクに拡散モデルを導入し,srndiff と呼ばれる過去の観測データに基づく条件拡散モデルを用いた短期降水ナキャスティングを提案する。 余分な条件デコーダモジュールをデノナイジングプロセスに組み込むことで、SRNDiffはエンドツーエンドの条件付き降雨予測を実現する。 srndiffは2つのネットワークから成り、デノイジングネットワークと条件エンコーダネットワークである。 条件付きネットワークは、複数の独立したunetネットワークで構成される。 These networks extract conditional feature maps at different resolutions, providing accurate conditional information that guides the diffusion model for conditional generation.SRNDiff surpasses GANs in terms of prediction accuracy, although it requires more computational resources.The SRNDiff model exhibits higher stability and efficiency during training than GANs-based approaches, and generates high-quality precipitation distribution samples that better reflect future actual precipitation conditions. これは降雨予測における拡散モデルの利点と可能性を完全に検証し、降雨予測を強化するための新たな洞察を提供する。

Diffusion models are widely used in image generation because they can generate high-quality and realistic samples. This is in contrast to generative adversarial networks (GANs) and variational autoencoders (VAEs), which have some limitations in terms of image quality.We introduce the diffusion model to the precipitation forecasting task and propose a short-term precipitation nowcasting with condition diffusion model based on historical observational data, which is referred to as SRNDiff. By incorporating an additional conditional decoder module in the denoising process, SRNDiff achieves end-to-end conditional rainfall prediction. SRNDiff is composed of two networks: a denoising network and a conditional Encoder network. The conditional network is composed of multiple independent UNet networks. These networks extract conditional feature maps at different resolutions, providing accurate conditional information that guides the diffusion model for conditional generation.SRNDiff surpasses GANs in terms of prediction accuracy, although it requires more computational resources.The SRNDiff model exhibits higher stability and efficiency during training than GANs-based approaches, and generates high-quality precipitation distribution samples that better reflect future actual precipitation conditions. This fully validates the advantages and potential of diffusion models in precipitation forecasting, providing new insights for enhancing rainfall prediction.
翻訳日:2024-02-22 15:44:47 公開日:2024-02-21
# 大規模事前学習言語モデルのDa Vinci符号:変性知識ニューロンの解読

The Da Vinci Code of Large Pre-trained Language Models: Deciphering Degenerate Knowledge Neurons ( http://arxiv.org/abs/2402.13731v1 )

ライセンス: Link先を確認
Yuheng Chen, Pengfei Cao, Yubo Chen, Yining Wang, Shengping Liu, Kang Liu, Jun Zhao(参考訳) 本研究では,事前学習言語モデル(PLM)における知識記憶機構について検討する。 これまでの研究では、事実知識は多層パーセプトロンの重みに格納され、いくつかの記憶ユニットは縮退知識ニューロン(DKN)と呼ばれる縮退性を示す。 本稿では,dknsの構造的側面と機能的側面の両方を包括的に定義し,plmの知識記憶装置の構造研究の先駆けとなった。 これに基づいて神経学的トポロジ・クラスタリング法を導入し,任意の数や構造にDKNが形成されることにより,より正確なDKNの取得が可能となる。 さらに,PLMの全体的評価のためのモデルロバスト性,進化性,複雑性を一意に統合するニューロ・デジェネリアシー分析フレームワークを導入する。 このフレームワークでは、2つのPLM、4つのデータセット、6つの設定で34の実験を実行しています。 コードはもうすぐ入手できる。

This study explores the mechanism of factual knowledge storage in pre-trained language models (PLMs). Previous research suggests that factual knowledge is stored within multi-layer perceptron weights, and some storage units exhibit degeneracy, referred to as Degenerate Knowledge Neurons (DKNs). This paper provides a comprehensive definition of DKNs that covers both structural and functional aspects, pioneering the study of structures in PLMs' factual knowledge storage units. Based on this, we introduce the Neurological Topology Clustering method, which allows the formation of DKNs in any numbers and structures, leading to a more accurate DKN acquisition. Furthermore, we introduce the Neuro-Degeneracy Analytic Analysis Framework, which uniquely integrates model robustness, evolvability, and complexity for a holistic assessment of PLMs. Within this framework, our execution of 34 experiments across 2 PLMs, 4 datasets, and 6 settings highlights the critical role of DKNs. The code will be available soon.
翻訳日:2024-02-22 15:44:27 公開日:2024-02-21
# 2次元三平面と3次元ウェーブレット表現を用いたハイブリッドビデオ拡散モデル

Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation ( http://arxiv.org/abs/2402.13729v1 )

ライセンス: Link先を確認
Kihong Kim, Haneol Lee, Jihye Park, Seyeon Kim, Kwanghee Lee, Seungryong Kim, Jaejun Yoo(参考訳) 要求されるリアルなコンテンツを合成する高品質なビデオを生成することは、ビデオの複雑な高次元性と複雑さのために難しい課題である。 最近の拡散法では、従来のビデオオートエンコーダアーキテクチャを用いて、動画を低次元の潜在空間に圧縮することで同等の性能を示す。 しかし、標準的なフレームワイズ2dと3dコンボリューションを用いる手法では、ビデオの時空間的性質を十分に活用できない。 この問題に対処するために,時空間依存性をより効果的にキャプチャできるHVDMと呼ばれるハイブリッドビデオ拡散モデルを提案する。 HVDMはハイブリッドビデオオートエンコーダによってトレーニングされ、ビデオの非絡み合った表現を抽出する。 (i)2次元投影潜水士が捉えたグローバルコンテキスト情報 (ii)ウェーブレット分解を伴う3次元畳み込みによる局所ボリューム情報 (iii)映像再構成を改善するための周波数情報。 この不整合表現に基づいて、我々のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加したより包括的なビデオラテントを提供する。 ビデオ生成ベンチラマーク(UCF101、SkyTimelapse、TaiChi)の実験は、提案手法が最先端のビデオ生成品質を達成し、幅広いビデオアプリケーション(例えば、ロングビデオ生成、イメージ・トゥ・ビデオ、ビデオダイナミックス制御)を示すことを示した。

Generating high-quality videos that synthesize desired realistic content is a challenging task due to their intricate high-dimensionality and complexity of videos. Several recent diffusion-based methods have shown comparable performance by compressing videos to a lower-dimensional latent space, using traditional video autoencoder architecture. However, such method that employ standard frame-wise 2D and 3D convolution fail to fully exploit the spatio-temporal nature of videos. To address this issue, we propose a novel hybrid video diffusion model, called HVDM, which can capture spatio-temporal dependencies more effectively. The HVDM is trained by a hybrid video autoencoder which extracts a disentangled representation of the video including: (i) a global context information captured by a 2D projected latent (ii) a local volume information captured by 3D convolutions with wavelet decomposition (iii) a frequency information for improving the video reconstruction. Based on this disentangled representation, our hybrid autoencoder provide a more comprehensive video latent enriching the generated videos with fine structures and details. Experiments on video generation benchamarks (UCF101, SkyTimelapse, and TaiChi) demonstrate that the proposed approach achieves state-of-the-art video generation quality, showing a wide range of video applications (e.g., long video generation, image-to-video, and video dynamics control).
翻訳日:2024-02-22 15:44:09 公開日:2024-02-21
# 深い神経崩壊のメカニズムとしての平均勾配外積

Average gradient outer product as a mechanism for deep neural collapse ( http://arxiv.org/abs/2402.13728v1 )

ライセンス: Link先を確認
Daniel Beaglehole, Peter S\'uken\'ik, Marco Mondelli, Mikhail Belkin(参考訳) Deep Neural Collapse (DNC)は、Deep Neural Networks (DNN)の最終層におけるデータ表現の驚くほど硬い構造を指す。 この現象は様々な環境で測定されてきたが、その出現は部分的にしか理解されていない。 本研究では, DNC 生成が主に, 平均勾配外積 (AGOP) を用いた深い特徴学習によって起こることを示す。 これは、制約のない特徴モデルのような特徴に依存しないアプローチによる神経崩壊を説明する取り組みと比べてさらに一歩前進する。 我々は、DNNにおいて、正しい特異ベクトルと重みの値がクラス内変数の崩壊の大部分の原因であることを示す。 最近の研究で示されているように、この特異構造はアゴップと高い相関関係にある。 次に, ランダム初期化ニューラルネットワークにおいて, agopが神経崩壊を引き起こすことを実験的, 理論的に確立する。 特に,畳み込みニューラルネットワークにおけるAGOP特徴学習の抽象化として最初に導入されたDeep Recursive Feature Machinesは,DNCを示す。

Deep Neural Collapse (DNC) refers to the surprisingly rigid structure of the data representations in the final layers of Deep Neural Networks (DNNs). Though the phenomenon has been measured in a wide variety of settings, its emergence is only partially understood. In this work, we provide substantial evidence that DNC formation occurs primarily through deep feature learning with the average gradient outer product (AGOP). This takes a step further compared to efforts that explain neural collapse via feature-agnostic approaches, such as the unconstrained features model. We proceed by providing evidence that the right singular vectors and values of the weights are responsible for the majority of within-class variability collapse in DNNs. As shown in recent work, this singular structure is highly correlated with that of the AGOP. We then establish experimentally and theoretically that AGOP induces neural collapse in a randomly initialized neural network. In particular, we demonstrate that Deep Recursive Feature Machines, a method originally introduced as an abstraction for AGOP feature learning in convolutional neural networks, exhibits DNC.
翻訳日:2024-02-22 15:43:45 公開日:2024-02-21
# スカラー場における可変質量とノイジー・ファインマン・プロパゲータ

Variable Mass and the Noisy Feynman Propagator in Scalar Fields ( http://arxiv.org/abs/2402.13727v1 )

ライセンス: Link先を確認
Allan Tameshtit(参考訳) 時間的役割を担う変数の第一位である質量独立Klein-Gordon方程式(パラメトリック時間定式化におけるアプローチ)を利用する。 半群進化の概念を用いて、量子場理論、すなわちスカラー電気力学におけるノイズのファインマン伝播子の兆候を調べる。

We utilize a mass independent Klein-Gordon equation that is first order in a variable that plays the role of time, the approach taken in parametric time formulations. Using concepts from semigroup evolution, we examine the sign of a noisy Feynman propagator in a quantum field theory, namely, scalar electrodynamics.
翻訳日:2024-02-22 15:43:28 公開日:2024-02-21
# スパースと構造化ホップフィールドネットワーク

Sparse and Structured Hopfield Networks ( http://arxiv.org/abs/2402.13725v1 )

ライセンス: Link先を確認
Saul Santos, Vlad Niculae, Daniel McNamee, Andre F. T. Martins(参考訳) 現代のホップフィールドネットワークは、トランスフォーマーの注意を惹きつけるため、近年の関心を集めている。 本稿では,Fenchel-Young損失とリンクを確立することで,疎ホップフィールドネットワークの統一フレームワークを提供する。 その結果、hopfield-fenchel-young energiesの新しいファミリーが生まれ、更新ルールはエンドツーエンドの微分可能スパース変換である。 損失マージン,疎度,正確なメモリ検索の関連を明らかにする。 さらに、このフレームワークをSparseMAP変換によって構築されたホップフィールドネットワークに拡張し、単一のパターンの代わりにパターン関連を検索する。 複数のインスタンス学習とテキスト合理化の実験は、我々のアプローチの有用性を示している。

Modern Hopfield networks have enjoyed recent interest due to their connection to attention in transformers. Our paper provides a unified framework for sparse Hopfield networks by establishing a link with Fenchel-Young losses. The result is a new family of Hopfield-Fenchel-Young energies whose update rules are end-to-end differentiable sparse transformations. We reveal a connection between loss margins, sparsity, and exact memory retrieval. We further extend this framework to structured Hopfield networks via the SparseMAP transformation, which can retrieve pattern associations instead of a single pattern. Experiments on multiple instance learning and text rationalization demonstrate the usefulness of our approach.
翻訳日:2024-02-22 15:43:21 公開日:2024-02-21
# 自分のキャラクタを持ってくる: カスタマイズされたキャラクタの自動顔アニメーション生成のための完全解法

Bring Your Own Character: A Holistic Solution for Automatic Facial Animation Generation of Customized Characters ( http://arxiv.org/abs/2402.13724v1 )

ライセンス: Link先を確認
Zechen Bai, Peng Chen, Xiaolan Peng, Lu Liu, Hui Chen, Mike Zheng Shou, Feng Tian(参考訳) 仮想キャラクタのアニメーションは、常に仮想現実(VR)の基本的な研究課題である。 仮想人間の感情や態度を効果的に伝えるため、顔のアニメーションは重要な役割を果たす。 しかし、このような顔アニメーションの作成は、しばしば高価なモーションキャプチャー装置の利用や、アニメーションパラメータのチューニングに人体アニメーターからの時間と労力の大幅な投資を含むため、難しい場合がある。 本稿では,仮想人間の顔を自動的にアニメーションする全体解を提案する。 提案手法では,ブレンド形状係数を推定することにより,入力顔画像から仮想顔への表情再ターゲティングを深層学習モデルで訓練した。 異なる外観のキャラクターとブレンドシェープトポロジを持つアニメーションを生成する柔軟性を提供する。 第2に、Unity 3Dを使って実用的なツールキットが開発され、最も人気のあるVRアプリケーションと互換性がある。 このツールキットは、画像とビデオの両方を入力として受け入れ、ターゲットの仮想顔をアニメーション化し、ユーザはアニメーション結果を操作することができる。 さらに,Human-in-the-loop(HITL)の精神に触発されて,ユーザからのフィードバックを利用して,モデルとツールキットの性能をさらに向上し,ユーザの好みに合ったカスタマイズ特性を向上した。 コードを公開する全体的なソリューションは、VRアプリケーションで使用する顔アニメーションの生成を加速する可能性を秘めている。

Animating virtual characters has always been a fundamental research problem in virtual reality (VR). Facial animations play a crucial role as they effectively convey emotions and attitudes of virtual humans. However, creating such facial animations can be challenging, as current methods often involve utilization of expensive motion capture devices or significant investments of time and effort from human animators in tuning animation parameters. In this paper, we propose a holistic solution to automatically animate virtual human faces. In our solution, a deep learning model was first trained to retarget the facial expression from input face images to virtual human faces by estimating the blendshape coefficients. This method offers the flexibility of generating animations with characters of different appearances and blendshape topologies. Second, a practical toolkit was developed using Unity 3D, making it compatible with the most popular VR applications. The toolkit accepts both image and video as input to animate the target virtual human faces and enables users to manipulate the animation results. Furthermore, inspired by the spirit of Human-in-the-loop (HITL), we leveraged user feedback to further improve the performance of the model and toolkit, thereby increasing the customization properties to suit user preferences. The whole solution, for which we will make the code public, has the potential to accelerate the generation of facial animations for use in VR applications.
翻訳日:2024-02-22 15:43:11 公開日:2024-02-21
# コントラスト型自己教師付き音声表現学習におけるバッチサイズの影響

The Effect of Batch Size on Contrastive Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2402.13723v1 )

ライセンス: Link先を確認
Nik Vaessen, David A. van Leeuwen(参考訳) 音声の基礎モデルは、しばしば多くのgpuを使って訓練され、暗黙的に大きな効果的なバッチサイズをもたらす。 本稿では, プレトレーニングにおけるバッチサイズの影響について, トレーニング中に監視できる統計量, 下流の微調整タスクの性能に与える影響について検討する。 バッチサイズを87.5秒から80分に変化させることで、一定量のイテレーションにおいて、より大きなバッチサイズが事前訓練されたモデルを改善することを示す。 しかし、安定性には低い限界があり、有効性には上限がある。 次に,事前学習モデルの質は,訓練中の音声データ量,すなわちバッチサイズと反復回数の積に依存することを示した。 すべての結果はwav2vec 2.0アーキテクチャの独立した実装で作成され、オリジナル作品の結果をかなり再現している(arxiv:2006.11477)。 我々の拡張は、研究者が音声における自己教師付き学習を研究する際に有効な操作条件を選択するのに役立つ。 コードとモデルチェックポイントはhttps://github.com/nikvaessen/w2v2-batch-sizeで確認できる。

Foundation models in speech are often trained using many GPUs, which implicitly leads to large effective batch sizes. In this paper we study the effect of batch size on pre-training, both in terms of statistics that can be monitored during training, and in the effect on the performance of a downstream fine-tuning task. By using batch sizes varying from 87.5 seconds to 80 minutes of speech we show that, for a fixed amount of iterations, larger batch sizes result in better pre-trained models. However, there is lower limit for stability, and an upper limit for effectiveness. We then show that the quality of the pre-trained model depends mainly on the amount of speech data seen during training, i.e., on the product of batch size and number of iterations. All results are produced with an independent implementation of the wav2vec 2.0 architecture, which to a large extent reproduces the results of the original work (arXiv:2006.11477). Our extensions can help researchers choose effective operating conditions when studying self-supervised learning in speech, and hints towards benchmarking self-supervision with a fixed amount of seen data. Code and model checkpoints are available at https://github.com/nikvaessen/w2v2-batch-size.
翻訳日:2024-02-22 15:42:45 公開日:2024-02-21
# アスペクトベース感情分析における適応的文脈マスキングの活用

Exploiting Adaptive Contextual Masking for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2402.13722v1 )

ライセンス: Link先を確認
S M Rafiuddin, Mohammed Rakib, Sadia Kamal, Arunkumar Bagavathi(参考訳) アスペクトベース知覚分析(Aspect-Based Sentiment Analysis、ABSA)は、与えられたテキストから多面的側面、意見、感情を抽出する問題である。 スタンドアローンタスクと複合ABSAタスクの両方が、オンラインレビューやソーシャルメディア投稿に記載されているニュアンス情報を調べるために、文献で広く使われている。 現在のABSA法は、文脈適応に苦慮し、様々な状況における単語のユニークな関連性を見落としてしまうような、注意-マスキング機構の静的ハイパーパラメータに依存することが多い。 これは、感情の異なる複数の側面を含む複雑な文を正確に分析することの難しさにつながる。 本稿では,absaのアスペクト項抽出とアスペクト感情分類のサブタスクを支援するために,コンテキストに基づく無関係なトークンを除去する適応マスク手法を提案する。 本研究では,提案手法が4つのベンチマークオンラインレビューデータセットにおいて,精度とf1スコアの点でベースラインメソッドよりも優れていることを示す。 さらに,提案手法は複数の適応で拡張可能であることを示し,アスペクト項抽出のためのサンプルテキストを用いて提案手法の質的解析を行った。

Aspect-Based Sentiment Analysis (ABSA) is a fine-grained linguistics problem that entails the extraction of multifaceted aspects, opinions, and sentiments from the given text. Both standalone and compound ABSA tasks have been extensively used in the literature to examine the nuanced information present in online reviews and social media posts. Current ABSA methods often rely on static hyperparameters for attention-masking mechanisms, which can struggle with context adaptation and may overlook the unique relevance of words in varied situations. This leads to challenges in accurately analyzing complex sentences containing multiple aspects with differing sentiments. In this work, we present adaptive masking methods that remove irrelevant tokens based on context to assist in Aspect Term Extraction and Aspect Sentiment Classification subtasks of ABSA. We show with our experiments that the proposed methods outperform the baseline methods in terms of accuracy and F1 scores on four benchmark online review datasets. Further, we show that the proposed methods can be extended with multiple adaptations and demonstrate a qualitative analysis of the proposed approach using sample text for aspect term extraction.
翻訳日:2024-02-22 15:42:26 公開日:2024-02-21
# Ouroboros: 大きなモデル拡張ドラフトによる投機的デコーディング

Ouroboros: Speculative Decoding with Large Model Enhanced Drafting ( http://arxiv.org/abs/2402.13720v1 )

ライセンス: Link先を確認
Weilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong Sun(参考訳) 投機的復号法のようなドラフト検証復号法は、大規模言語モデル(llm)の推論を加速するトレーニングフリーな手法として広く採用されている。 トークンを逐次デコードするために自動回帰処理を使う代わりに、投機的デコーディングは最初、効率的な小さなモデルでドラフトを作成する。 LLMは、時間オーバーヘッドを最小限に抑えるために、非自己回帰的な検証と修正を行う必要がある。 長いドラフトを生成することは、一度検証すればさらに大きなスピードアップにつながるが、失敗するとかなりの試行錯誤とエラーコストが発生する。 高検証失敗確率から、既存の復号法は一度に過剰な検証内容のドラフトを作成することができず、準最適推論加速を達成することができる。 本稿では,LLMの検証プロセスから句候補プールを構築し,小モデルのドラフト生成候補を提供するOuroborosを紹介する。 これにより、Ouroborosは初期ドラフトの効率性と有効性をさらに向上させることができる。 典型的なテキスト生成タスクの実験結果から,Ouroboros はルックアヘッドの復号化や投機的復号化に比べて最大1.9倍,2.8倍の高速化を実現している。 ouroborosのソースコードはhttps://github.com/thunlp/ouroborosで入手できる。

Drafting-then-verifying decoding methods such as speculative decoding are widely adopted training-free methods to accelerate the inference of large language models (LLMs). Instead of employing an autoregressive process to decode tokens sequentially, speculative decoding initially creates drafts with an efficient small model. Then LLMs are required to conduct verification and correction in a non-autoregressive fashion to minimize time overhead. Generating longer drafts can lead to even more significant speedups once verified, but also incurs substantial trial and error costs if it fails. Suffering from the high verification failure probability, existing decoding methods cannot draft too much content for verification at one time, achieving sub-optimal inference acceleration. In this paper, we introduce Ouroboros, which constructs a phrase candidate pool from the verification process of LLMs to provide candidates for draft generation of the small model. Thereby, Ouroboros can further improve the efficiency and effectiveness of the initial drafts. The experimental results on typical text generation tasks show that Ouroboros achieves speedups of up to 1.9x and 2.8x compared to lookahead decoding and speculative decoding, respectively. The source code of Ouroboros is available at https://github.com/thunlp/Ouroboros.
翻訳日:2024-02-22 15:42:05 公開日:2024-02-21
# neeko: dynamic loraを活用した効率的なマルチキャラクタロールプレイングエージェント

Neeko: Leveraging Dynamic LoRA for Efficient Multi-Character Role-Playing Agent ( http://arxiv.org/abs/2402.13717v1 )

ライセンス: Link先を確認
Xiaoyan Yu, Tongxu Luo, Yifan Wei, Fangyu Lei, Yiming Huang, Peng Hao, Liehuang Zhu(参考訳) 大規模言語モデル(llm)は、オープンドメインの対話エージェントに革命をもたらしたが、マルチキャラクタロールプレイング(mcrp)シナリオの課題に遭遇した。 この問題に対処するため、我々は複数の文字を効率よく模倣するための革新的なフレームワークNeekoを提示する。 既存の方法とは異なり、Neekoは動的ローランクアダプタ(LoRA)戦略を採用しており、多様な文字にシームレスに適応できる。 本フレームワークでは,ロールプレイングのプロセスをエージェント事前学習,複数キャラクタプレイ,文字インクリメンタル学習に分解し,目に見える役割と目に見えない役割の両方を効果的に扱う。 このダイナミックなアプローチは、各キャラクタの異なるローラブロックと組み合わせることで、neekoのユニークな属性、個性、発話パターンへの適応性を高める。 その結果、Neekoは既存のほとんどのメソッドよりもMCRPの優れたパフォーマンスを示し、より魅力的で汎用的なユーザーインタラクションエクスペリエンスを提供します。 コードとデータはhttps://github.com/weiyifan1023/neekoで入手できる。

Large Language Models (LLMs) have revolutionized open-domain dialogue agents but encounter challenges in multi-character role-playing (MCRP) scenarios. To address the issue, we present Neeko, an innovative framework designed for efficient multiple characters imitation. Unlike existing methods, Neeko employs a dynamic low-rank adapter (LoRA) strategy, enabling it to adapt seamlessly to diverse characters. Our framework breaks down the role-playing process into agent pre-training, multiple characters playing, and character incremental learning, effectively handling both seen and unseen roles. This dynamic approach, coupled with distinct LoRA blocks for each character, enhances Neeko's adaptability to unique attributes, personalities, and speaking patterns. As a result, Neeko demonstrates superior performance in MCRP over most existing methods, offering more engaging and versatile user interaction experiences. Code and data are available at https://github.com/weiyifan1023/Neeko.
翻訳日:2024-02-22 15:41:42 公開日:2024-02-21
# バイオインフォマティクス研究における大規模言語モデルの評価

An Evaluation of Large Language Models in Bioinformatics Research ( http://arxiv.org/abs/2402.13714v1 )

ライセンス: Link先を確認
Hengchuang Yin, Zhonghui Gu, Fanhao Wang, Yiparemu Abuduhaibaier, Yanqiao Zhu, Xinming Tu, Xian-Sheng Hua, Xiao Luo, Yizhou Sun(参考訳) ChatGPTのような大規模言語モデル(LLM)は、様々な研究コミュニティでかなりの関心を集めている。 テキストの完成と生成の際立った能力は、言語対面問題解決のための新しいパラダイムを創出した。 しかし、バイオインフォマティクスにおけるこれらのモデルの可能性と有効性はいまだ不完全である。 本研究では, バイオインフォマティクスタスクの幅広い範囲において, LLMの性能について検討する。 これらのタスクには、潜在的なコーディング領域の同定、遺伝子やタンパク質の命名された実体の抽出、抗菌性および抗がん性ペプチドの検出、分子最適化、教育的バイオインフォマティクス問題の解決が含まれる。 この結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。 さらに, 複雑なバイオインフォマティクスタスクの文脈において, その限界を徹底的に分析する。 結論として,本研究は新しい視点を提供し,llms応用,科学・バイオインフォマティクス分野における今後の研究を動機付けることができると考えている。

Large language models (LLMs) such as ChatGPT have gained considerable interest across diverse research communities. Their notable ability for text completion and generation has inaugurated a novel paradigm for language-interfaced problem solving. However, the potential and efficacy of these models in bioinformatics remain incompletely explored. In this work, we study the performance LLMs on a wide spectrum of crucial bioinformatics tasks. These tasks include the identification of potential coding regions, extraction of named entities for genes and proteins, detection of antimicrobial and anti-cancer peptides, molecular optimization, and resolution of educational bioinformatics problems. Our findings indicate that, given appropriate prompts, LLMs like GPT variants can successfully handle most of these tasks. In addition, we provide a thorough analysis of their limitations in the context of complicated bioinformatics tasks. In conclusion, we believe that this work can provide new perspectives and motivate future research in the field of LLMs applications, AI for Science and bioinformatics.
翻訳日:2024-02-22 15:41:22 公開日:2024-02-21
# dslr:リハーサルベースグラフ連続学習のための多様性向上と構造学習

DSLR: Diversity Enhancement and Structure Learning for Rehearsal-based Graph Continual Learning ( http://arxiv.org/abs/2402.13711v1 )

ライセンス: Link先を確認
Seungyoon Choi, Wonjoong Kim, Sungwon Kim, Yeonjun In, Sein Kim, Chanyoung Park(参考訳) グラフ連続学習法(GCL)におけるリハーサルベースアプローチにおけるリプレイバッファの検討を行った。 既存のリハーサルベースのGCLメソッドは、各クラスの最も代表的なノードを選択し、後続のタスクをトレーニングするためにリプレイバッファに保存する。 しかし,各リプレイノードのクラス代表性のみを考慮すれば,リプレイノードが各クラスの中心に集中することになり,その領域に存在するノードに過度に適合する可能性があり,破滅的な忘れが悪化することがわかった。 さらに、リハーサルベースのアプローチは、過去のタスクから得られた知識を保持するために、いくつかのリプレイノードに大きく依存しているため、モデルトレーニングに非関連な隣人を持つリプレイノードは、モデルパフォーマンスに重大な有害な影響を及ぼす可能性がある。 本稿では,dslrと呼ばれるgclモデルを提案する。具体的には,各ノードのクラスにおけるクラス代表性と多様性を検討するためのカバレッジベース多様性(cd)アプローチを考案する。 さらに, グラフ構造学習(GSL)を用いて, 再生ノードが真に情報のある隣人に接続されていることを保証する。 実験の結果,DSLRの有効性と有効性を示した。

We investigate the replay buffer in rehearsal-based approaches for graph continual learning (GCL) methods. Existing rehearsal-based GCL methods select the most representative nodes for each class and store them in a replay buffer for later use in training subsequent tasks. However, we discovered that considering only the class representativeness of each replayed node makes the replayed nodes to be concentrated around the center of each class, incurring a potential risk of overfitting to nodes residing in those regions, which aggravates catastrophic forgetting. Moreover, as the rehearsal-based approach heavily relies on a few replayed nodes to retain knowledge obtained from previous tasks, involving the replayed nodes that have irrelevant neighbors in the model training may have a significant detrimental impact on model performance. In this paper, we propose a GCL model named DSLR, specifically, we devise a coverage-based diversity (CD) approach to consider both the class representativeness and the diversity within each class of the replayed nodes. Moreover, we adopt graph structure learning (GSL) to ensure that the replayed nodes are connected to truly informative neighbors. Extensive experimental results demonstrate the effectiveness and efficiency of DSLR.
翻訳日:2024-02-22 15:41:07 公開日:2024-02-21
# マジックトリックにおける論理的行動のモデルチェック

Model Checking Logical Actions in Magic Tricks ( http://arxiv.org/abs/2402.13802v1 )

ライセンス: Link先を確認
Weijun Zhu(参考訳) 様々な種類のカードマジック(cm)のようないくつかのマジック(mt)は、人間の計算や論理的なアクションからなる。 mtsの論理的正当性を保証するには? 本稿では,典型的なcmをケーススタディを通して検討するために,モデルチェック(mc)手法を用いる。 第一に、Shousuigongcishiと呼ばれるCMの計算操作はMagic Algorithm (MAR)によって記述できる。 第二に、論理的正当性は時間論理式で表される。 これに基づいて、このMT論理的正当性問題をモデル検査問題に還元する。 その結果、Magic Trick Model Checking (MTMC)技術は、設計されたMTがそのアーキテクトの期待と要求を満たすかどうか、論理と計算の観点から検証することを目的としている。

Some Magic Tricks (MT), such as many kinds of Card Magic (CM), consisting of human computational or logical actions. How to ensure the logical correctness of these MTs? In this paper, the Model Checking (MC) technique is employed to study a typical CM via a case study. First, computational operations of a CM called shousuigongcishi can be described by a Magic Algorithm (MAR). Second, the logical correctness is portrayed by a temporal logic formula. On the basis of it, this MT logical correctness problem is reduced to the model checking problem. As a result, the Magic Trick Model Checking (MTMC) technique aims to verify whether a designed MT meets its architect's anticipation and requirements, or not, in terms of logic and computations.
翻訳日:2024-02-22 15:36:33 公開日:2024-02-21
# オフライン政策学習のための深層生成モデル--チュートリアル,調査,今後の方向性の展望

Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions ( http://arxiv.org/abs/2402.13777v1 )

ライセンス: Link先を確認
Jiayu Chen, Bhargav Ganguly, Yang Xu, Yongsheng Mei, Tian Lan, Vaneet Aggarwal(参考訳) deep generative models(dgms)は、オフラインデータからトレーニングされたモデルを使用してテキスト、画像、ビデオを生成することで、さまざまなドメインで大きな成功を収めています。 同様に、データ駆動意思決定とロボット制御は、オフラインデータからジェネレータ関数を学習し、戦略やポリシーとして機能する必要がある。 この場合、オフライン政策学習に深い生成モデルを適用することは大きな可能性を示し、この方向に多くの研究がなされている。 しかし、この分野には包括的なレビューがないため、異なるブランチの開発は比較的独立している。 そこで本研究では,オフラインポリシ学習における深層生成モデルの応用について,初めて体系的なレビューを行う。 特に, 変分自動エンコーダ, 生成適応ネットワーク, 正規化フロー, トランスフォーマー, 拡散モデル, オフライン強化学習(オフラインRL) と模倣学習(IL)の5つの主要な深層生成モデルについて述べる。 オフラインRLとILは、オフラインポリシー学習の2つの主要な分野であり、シーケンシャルな意思決定のための広く採用されている技術である。 具体的には、DGMをベースとしたオフライン政策学習において、基本スキームを精算し、DGMの使用状況に基づいて関連研究を分類し、その分野におけるアルゴリズムの開発プロセスを整理する。 そこで本研究では,本研究では,本研究の今後の方向性を概観した,深層生成モデルとオフライン政策学習に関する詳細な議論を要約として提示する。 この研究は、オフラインポリシー学習のための深い生成モデルの研究の進展をハンズオンで参照し、改良されたDGMベースのオフラインRLまたはILアルゴリズムを刺激することを目的としている。

Deep generative models (DGMs) have demonstrated great success across various domains, particularly in generating texts, images, and videos using models trained from offline data. Similarly, data-driven decision-making and robotic control also necessitate learning a generator function from the offline data to serve as the strategy or policy. In this case, applying deep generative models in offline policy learning exhibits great potential, and numerous studies have explored in this direction. However, this field still lacks a comprehensive review and so developments of different branches are relatively independent. Thus, we provide the first systematic review on the applications of deep generative models for offline policy learning. In particular, we cover five mainstream deep generative models, including Variational Auto-Encoders, Generative Adversarial Networks, Normalizing Flows, Transformers, and Diffusion Models, and their applications in both offline reinforcement learning (offline RL) and imitation learning (IL). Offline RL and IL are two main branches of offline policy learning and are widely-adopted techniques for sequential decision-making. Specifically, for each type of DGM-based offline policy learning, we distill its fundamental scheme, categorize related works based on the usage of the DGM, and sort out the development process of algorithms in that field. Subsequent to the main content, we provide in-depth discussions on deep generative models and offline policy learning as a summary, based on which we present our perspectives on future research directions. This work offers a hands-on reference for the research progress in deep generative models for offline policy learning, and aims to inspire improved DGM-based offline RL or IL algorithms.
翻訳日:2024-02-22 15:36:20 公開日:2024-02-21
# cas-diffcom : 乳児縦型3次元医用画像補完のためのカスケード拡散モデル

Cas-DiffCom: Cascaded diffusion model for infant longitudinal super-resolution 3D medical image completion ( http://arxiv.org/abs/2402.13776v1 )

ライセンス: Link先を確認
Lianghu Guo, Tianli Tao, Xinyi Cai, Zihao Zhu, Jiawei Huang, Lixuan Zhu, Zhuoyang Gu, Haifeng Tang, Rui Zhou, Siyan Han, Yan Liang, Qing Yang, Dinggang Shen, Han Zhang(参考訳) 幼少期は行動と神経認知の急速かつダイナミックな発達期である。 縦方向磁気共鳴画像(MRI)は、脳構造の発達軌跡を捉えることで、そのような重要な段階を解明するための有効な手段である。 しかし, 経時的MRIの取得は, 被験者の脱落やスキャンの失敗などによる深刻なデータ欠落の問題に常に対応し, 乳児期中脳房構築と発達過程の脱線を極めて困難にしている。 AIベースの生成モデルの開発により、ニューロ画像の完成は可能な限り多くのデータを保持できる強力な技術となった。 しかし、現在の画像補完法は通常、時間次元において各被験者内の不整合に悩まされ、全体的な品質を損なう。 そこで本研究では, 高密度・縦型3次元乳幼児脳mriの完成と超解像のための2段階カスケード拡散モデルcas-diffcomを提案した。 提案手法をBaby Connectome Project (BCP) データセットに適用した。 実験の結果,Cas-DiffComは縦型乳幼児脳画像における個々の一貫性と忠実度の両方を達成できることがわかった。 さらに, 生成した幼児脳像を2つの下流課題, 脳組織分節と発達軌道分節に応用し, 神経科学分野における課題指向のポテンシャルを宣言した。

Early infancy is a rapid and dynamic neurodevelopmental period for behavior and neurocognition. Longitudinal magnetic resonance imaging (MRI) is an effective tool to investigate such a crucial stage by capturing the developmental trajectories of the brain structures. However, longitudinal MRI acquisition always meets a serious data-missing problem due to participant dropout and failed scans, making longitudinal infant brain atlas construction and developmental trajectory delineation quite challenging. Thanks to the development of an AI-based generative model, neuroimage completion has become a powerful technique to retain as much available data as possible. However, current image completion methods usually suffer from inconsistency within each individual subject in the time dimension, compromising the overall quality. To solve this problem, our paper proposed a two-stage cascaded diffusion model, Cas-DiffCom, for dense and longitudinal 3D infant brain MRI completion and super-resolution. We applied our proposed method to the Baby Connectome Project (BCP) dataset. The experiment results validate that Cas-DiffCom achieves both individual consistency and high fidelity in longitudinal infant brain image completion. We further applied the generated infant brain images to two downstream tasks, brain tissue segmentation and developmental trajectory delineation, to declare its task-oriented potential in the neuroscience field.
翻訳日:2024-02-22 15:35:48 公開日:2024-02-21
# マスクアップ:仮面の顔再識別におけるバイアス調査

Mask-up: Investigating Biases in Face Re-identification for Masked Faces ( http://arxiv.org/abs/2402.13771v1 )

ライセンス: Link先を確認
Siddharth D Jaiswal, Ankit Kr. Verma, Animesh Mukherjee(参考訳) AIベースの顔認識システム(FRS)は現在、世界中のMLaaSソリューションとして広く流通し、デプロイされている。さらに新型コロナウイルス(COVID-19)パンデミック以降、個人の顔の検証やSIMカードの購入、市民の監視といったタスクも行われている。 これらのシステムにおける限界化されたグループに対する広範な偏見が報告され、非常に差別的な結果に繋がった。 ポストパンデミックの世界では、フェイスマスクは正常化されているが、FRSは変化した時代に追いついていない。 その結果、これらのシステムはマスクベースの顔のオクルージョンの影響を受けやすい。 本研究では,5つのベンチマークデータセット(約14,722画像)にまたがる異なるマスク画像と未マスク画像の顔を識別するタスクのために,商用および9つのオープンソースfrsを監査した。 これらは、世界中のすべての主要国で展開されている現実的な検証/監視タスクをシミュレートします。 商用の3つとオープンソースFRSの5つは非常に不正確であり、非ホワイトの個人に対するバイアスをさらに持続させ、最も低い精度は0%である。 85人の被験者による同じタスクに対する調査の結果、40%の低い精度が得られた。 このように、パイプライン内の人間のループのモデレーションは、文献でしばしば仮説化されているように、懸念を緩和しない。 当社の大規模な調査は、開発者、議員、そしてそのようなサービスの利用者が、特に、観察されたバイアスを認識し、顔を再識別するタスクのために、FRSの背後にある設計原則を再考する必要があることを示している。

AI based Face Recognition Systems (FRSs) are now widely distributed and deployed as MLaaS solutions all over the world, moreso since the COVID-19 pandemic for tasks ranging from validating individuals' faces while buying SIM cards to surveillance of citizens. Extensive biases have been reported against marginalized groups in these systems and have led to highly discriminatory outcomes. The post-pandemic world has normalized wearing face masks but FRSs have not kept up with the changing times. As a result, these systems are susceptible to mask based face occlusion. In this study, we audit four commercial and nine open-source FRSs for the task of face re-identification between different varieties of masked and unmasked images across five benchmark datasets (total 14,722 images). These simulate a realistic validation/surveillance task as deployed in all major countries around the world. Three of the commercial and five of the open-source FRSs are highly inaccurate; they further perpetuate biases against non-White individuals, with the lowest accuracy being 0%. A survey for the same task with 85 human participants also results in a low accuracy of 40%. Thus a human-in-the-loop moderation in the pipeline does not alleviate the concerns, as has been frequently hypothesized in literature. Our large-scale study shows that developers, lawmakers and users of such services need to rethink the design principles behind FRSs, especially for the task of face re-identification, taking cognizance of observed biases.
翻訳日:2024-02-22 15:35:16 公開日:2024-02-21
# 確率シンプレックスの統計モデルによる精度保存校正

Accuracy-Preserving Calibration via Statistical Modeling on Probability Simplex ( http://arxiv.org/abs/2402.13765v1 )

ライセンス: Link先を確認
Yasushi Esaki and Akihiro Nakamura and Keisuke Kawano and Ryoko Tokuhisa and Takuro Kutsuna(参考訳) 深層ニューラルネットワーク(DNN)に基づく分類モデルは、予測の信頼性を測定するために校正されなければならない。 最近のキャリブレーション法では、確率単純性に関する確率論的モデルを採用している。 しかし、これらの校正法は、高い分類精度のモデルであっても、事前訓練されたモデルの精度を維持することはできない。 本稿では, 確率単純度に基づく確率モデルとして, コンクリート分布を用いた精度保存キャリブレーション法を提案する。 理論的には, クロスエントロピー損失をトレーニングしたDNNモデルが, コンクリート分布のパラメータとして最適であることを示す。 また,確率単純度に基づく確率モデル学習のためのサンプルを合成的に生成する効率的な手法を提案する。 提案手法は,ベンチマークを用いた校正作業の精度保存において,従来の手法よりも優れていることを示す。

Classification models based on deep neural networks (DNNs) must be calibrated to measure the reliability of predictions. Some recent calibration methods have employed a probabilistic model on the probability simplex. However, these calibration methods cannot preserve the accuracy of pre-trained models, even those with a high classification accuracy. We propose an accuracy-preserving calibration method using the Concrete distribution as the probabilistic model on the probability simplex. We theoretically prove that a DNN model trained on cross-entropy loss has optimality as the parameter of the Concrete distribution. We also propose an efficient method that synthetically generates samples for training probabilistic models on the probability simplex. We demonstrate that the proposed method can outperform previous methods in accuracy-preserving calibration tasks using benchmarks.
翻訳日:2024-02-22 15:34:50 公開日:2024-02-21
# CriticBench: 大規模言語モデルを批判として評価する

CriticBench: Evaluating Large Language Models as Critic ( http://arxiv.org/abs/2402.13764v1 )

ライセンス: Link先を確認
Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen, Xian-ling Mao(参考訳) 批判能力は、大規模言語モデル(LLM)のスケーラブルな監視と自己改善に不可欠である。 近年の多くの研究でllmの欠陥を判断し洗練するための批判的能力が研究されているが、llmの批判的能力を包括的かつ確実に測定する方法は未検討である。 本稿では,LLMの4つの重要な批判能力(フィードバック,比較,洗練,メタフィードバック)を包括的かつ確実に評価する新しいベンチマークであるShortnameを紹介する。 \shortname~は9つの異なるタスクを包含し、それぞれが品質の粒度の異なるレベルで応答を批判するllmの能力を評価する。 オープンソースおよびクローズドソースllmの広範な評価から,批判的能力とタスク,応答性,モデルスケールの関係が明らかとなった。 datasets, resources and evaluation toolkit for \shortname~は \url{https://github.com/gmftbygmftby/criticbench} で公開される。

Critique ability are crucial in the scalable oversight and self-improvement of Large Language Models (LLMs). While many recent studies explore the critique ability of LLMs to judge and refine flaws in generations, how to comprehensively and reliably measure the critique abilities of LLMs is under-explored. This paper introduces \shortname, a novel benchmark designed to comprehensively and reliably evaluate four key critique ability dimensions of LLMs: feedback, comparison, refinement and meta-feedback. \shortname~encompasses nine diverse tasks, each assessing the LLMs' ability to critique responses at varying levels of quality granularity. Our extensive evaluations of open-source and closed-source LLMs reveal intriguing relationships between the critique ability and tasks, response qualities, and model scales. Datasets, resources and evaluation toolkit for \shortname~will be publicly released at \url{https://github.com/gmftbyGMFTBY/CriticBench}.
翻訳日:2024-02-22 15:34:38 公開日:2024-02-21
# 大規模言語モデルの時代における要約の事実的一貫性評価

Factual Consistency Evaluation of Summarisation in the Era of Large Language Models ( http://arxiv.org/abs/2402.13758v1 )

ライセンス: Link先を確認
Zheheng Luo, Qianqian Xie, Sophia Ananiadou(参考訳) ソース文書と自動的に生成された要約の矛盾は、誤報やリスクを引き起こす可能性がある。 既存の事実整合性(FC)メトリクスは、その性能、効率、説明可能性によって制約される。 近年のLarge Language Model (LLMs) の進歩は, テキスト評価において顕著な可能性を示しているが, 要約におけるFC評価の有効性は未定である。 以前の研究は主にプロプライエタリなllmに重点を置いており、評価能力に影響する重要な要素は未調査のままである。 さらに、現在のFC評価ベンチマークはニュース記事に限られており、テストされたFCメソッドの一般性に疑問を呈している。 本稿ではまず,臨床文献のLCM生成サマリーのデータセットであるTreatFactを導入することで,そのギャップに対処する。 さらに,ニュース領域および臨床領域におけるfc評価のための11 llmのベンチマークを行い,モデルサイズ,プロンプト,事前トレーニングおよび微調整データの影響について検討した。 我々の研究結果によると、プロプライエタリなモデルがこのタスクで採用されているにもかかわらず、オープンソースのLLMは遅れている。 それでも、モデルのサイズを拡大し、事前学習データを拡張し、精巧な微調整データを開発することにより、オープンソースのLLMの性能を向上させる可能性がある。 TreatFactの実験は、従来の方法とLCMに基づく評価器の両方が、臨床要約における現実的な矛盾を捉えられないことを示唆し、FC評価に新たな課題を提起している。

Factual inconsistency with source documents in automatically generated summaries can lead to misinformation or pose risks. Existing factual consistency(FC) metrics are constrained by their performance, efficiency, and explainability. Recent advances in Large language models (LLMs) have demonstrated remarkable potential in text evaluation but their effectiveness in assessing FC in summarisation remains underexplored. Prior research has mostly focused on proprietary LLMs, leaving essential factors that affect their assessment capabilities unexplored. Additionally, current FC evaluation benchmarks are restricted to news articles, casting doubt on the generality of the FC methods tested on them. In this paper, we first address the gap by introducing TreatFact a dataset of LLM-generated summaries of clinical texts, annotated for FC by domain experts. Moreover, we benchmark 11 LLMs for FC evaluation across news and clinical domains and analyse the impact of model size, prompts, pre-training and fine-tuning data. Our findings reveal that despite proprietary models prevailing on the task, open-source LLMs lag behind. Nevertheless, there is potential for enhancing the performance of open-source LLMs through increasing model size, expanding pre-training data, and developing well-curated fine-tuning data. Experiments on TreatFact suggest that both previous methods and LLM-based evaluators are unable to capture factual inconsistencies in clinical summaries, posing a new challenge for FC evaluation.
翻訳日:2024-02-22 15:34:22 公開日:2024-02-21
# 全畳み込みネットワークを用いた高スループットビジュアルナノドロンとナノドロン相対局在

High-throughput Visual Nano-drone to Nano-drone Relative Localization using Onboard Fully Convolutional Networks ( http://arxiv.org/abs/2402.13756v1 )

ライセンス: Link先を確認
Luca Crupi, Alessandro Giusti, and Daniele Palossi(参考訳) ドローンからドローンへの相対的なローカライゼーションは、スワーミング操作の基本的な構成要素である。 この課題は, ナノ粒子径10cmの小型化, 形状因子の低減によって実現された新規な使用事例により, ますます関心が高まり続ける。 汎用性の価格には、センサー、処理ユニット、メモリなどの限られたオンボードリソースが伴うため、オンボードアルゴリズムの複雑さが制限される。 これらの制限を克服する従来のソリューションは、ナノドロネスに直接デプロイされる軽量なディープラーニングモデルによって表現される。 この研究は、グレースケールの低解像度カメラと超低消費電力システムオンチップ(soc)を内蔵したナノドロンの相対的なポーズ推定に挑戦している。 本稿では,GWT GAP8 SoCで拡張されたクレイジーフリーナノドローン上で,101mW以内39Hzで動作可能な,新しいビジョンベース完全畳み込みニューラルネットワーク(FCNN)に基づく垂直統合システムを提案する。 当社のfcnnを3つの最先端(soa)システムと比較します。 最良のsoaアプローチを考えると、このモデルは、水平画像座標では32から47%、垂直画像座標では18から55%、実世界のデータセットでは30k画像でr-二乗の改善をもたらす。 最後に、フィールド内テストでは、以前のsoa作業と比較して、平均追跡エラーが37%減少し、バッテリー寿命が4分まで耐久性能が低下しています。

Relative drone-to-drone localization is a fundamental building block for any swarm operations. We address this task in the context of miniaturized nano-drones, i.e., 10cm in diameter, which show an ever-growing interest due to novel use cases enabled by their reduced form factor. The price for their versatility comes with limited onboard resources, i.e., sensors, processing units, and memory, which limits the complexity of the onboard algorithms. A traditional solution to overcome these limitations is represented by lightweight deep learning models directly deployed aboard nano-drones. This work tackles the challenging relative pose estimation between nano-drones using only a gray-scale low-resolution camera and an ultra-low-power System-on-Chip (SoC) hosted onboard. We present a vertically integrated system based on a novel vision-based fully convolutional neural network (FCNN), which runs at 39Hz within 101mW onboard a Crazyflie nano-drone extended with the GWT GAP8 SoC. We compare our FCNN against three State-of-the-Art (SoA) systems. Considering the best-performing SoA approach, our model results in an R-squared improvement from 32 to 47% on the horizontal image coordinate and from 18 to 55% on the vertical image coordinate, on a real-world dataset of 30k images. Finally, our in-field tests show a reduction of the average tracking error of 37% compared to a previous SoA work and an endurance performance up to the entire battery lifetime of 4 minutes.
翻訳日:2024-02-22 15:33:56 公開日:2024-02-21
# 強化学習支援量子アーキテクチャによる変分量子アルゴリズムの探索

Reinforcement learning-assisted quantum architecture search for variational quantum algorithms ( http://arxiv.org/abs/2402.13754v1 )

ライセンス: Link先を確認
Akash Kundu(参考訳) ノイズの多い中間スケール量子(NISQ)時代の重要なハードルは、機能量子回路を特定することである。 これらの回路は、現在の量子ハードウェアの制限によって課される制約にも従わなければならない。 量子古典最適化アルゴリズムのクラスである変分量子アルゴリズム(VQA)は、現在利用可能な量子デバイスにおけるこれらの課題に対処するために開発された。 しかしながら、VQAの全体的な性能は、変動回路の初期化戦略、回路の構造(アンザッツとも呼ばれる)、コスト関数の設定に依存する。 回路の構造に着目し,この論文では,強化学習(RL)を用いた変分回路の最適構造探索を自動化することにより,VQAの性能を向上させる。 論文の中で、回路の最適性は、その深さ、ゲートとパラメータの全体数、および与えられた問題を解決するための精度を評価することによって決定される。 最適量子回路の探索を自動化するタスクは量子アーキテクチャサーチ(QAS)として知られている。 QASの研究の大部分は、主にノイズのないシナリオに焦点を当てている。 しかし、QASに対するノイズの影響はいまだに不十分である。 本稿では,テンソルをベースとした量子回路の符号化,可能回路の探索空間を効率的に探索するための環境力学の制限,より短い回路を見つけるためにエージェントを操るエピソード停止スキーム,安定性向上のための$\epsilon$-greedyポリシを備えたDDQN(Double Deep Q-network)を導入することで課題に取り組む。 ノイズレスおよびノイズの多い量子ハードウェアに関する数値実験は、様々なVQAを扱う際に、我々のRLベースのQASが既存のQASより優れていることを示している。 一方、論文で提案する手法は、他の幅広いvqaに対応するために容易に適用できる。

A significant hurdle in the noisy intermediate-scale quantum (NISQ) era is identifying functional quantum circuits. These circuits must also adhere to the constraints imposed by current quantum hardware limitations. Variational quantum algorithms (VQAs), a class of quantum-classical optimization algorithms, were developed to address these challenges in the currently available quantum devices. However, the overall performance of VQAs depends on the initialization strategy of the variational circuit, the structure of the circuit (also known as ansatz), and the configuration of the cost function. Focusing on the structure of the circuit, in this thesis, we improve the performance of VQAs by automating the search for an optimal structure for the variational circuits using reinforcement learning (RL). Within the thesis, the optimality of a circuit is determined by evaluating its depth, the overall count of gates and parameters, and its accuracy in solving the given problem. The task of automating the search for optimal quantum circuits is known as quantum architecture search (QAS). The majority of research in QAS is primarily focused on a noiseless scenario. Yet, the impact of noise on the QAS remains inadequately explored. In this thesis, we tackle the issue by introducing a tensor-based quantum circuit encoding, restrictions on environment dynamics to explore the search space of possible circuits efficiently, an episode halting scheme to steer the agent to find shorter circuits, a double deep Q-network (DDQN) with an $\epsilon$-greedy policy for better stability. The numerical experiments on noiseless and noisy quantum hardware show that in dealing with various VQAs, our RL-based QAS outperforms existing QAS. Meanwhile, the methods we propose in the thesis can be readily adapted to address a wide range of other VQAs.
翻訳日:2024-02-22 15:33:29 公開日:2024-02-21
# LongRoPE: LLMコンテキストウィンドウを200万以上のトークンに拡張

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens ( http://arxiv.org/abs/2402.13753v1 )

ライセンス: Link先を確認
Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang(参考訳) 大きなコンテキストウィンドウは、大きな言語モデル(LLM)で望ましい機能である。 しかし、高い微調整コスト、長いテキストの不足、新しいトークンの位置によってもたらされる破滅的な値のため、現在の拡張コンテキストウィンドウは約128kトークンに制限されている。 本稿では,LongRoPEを初めて,事前学習したLLMのコンテキストウィンドウを2048kのトークンに拡張し,最大1kの微調整ステップを256kのトレーニング長で行うとともに,元の短いコンテキストウィンドウの性能を維持した。 これは3つの重要なイノベーションによって達成される。 i) 効率的な探索により位置補間における2種類の非均一性を識別し, 利用することにより, 微調整におけるより優れた初期化と, 微調整以外のシナリオにおける8倍拡張を実現する。 (II)まず256kのLLMを微調整し,さらに2048kのコンテキストウインドウを実現するために2番目の位置補間を行うプログレッシブ拡張戦略を導入する。 (3)LongRoPEを8k長で書き直し,ショートコンテキストウィンドウの性能を回復する。 LLaMA2 と Mistral の多機能化実験により,本手法の有効性が示された。 LongRoPEを通じて拡張されたモデルは、位置埋め込みに小さな変更を加えて元のアーキテクチャを保持し、既存の最適化を再利用することができる。

Large context window is a desirable feature in large language models (LLMs). However, due to high fine-tuning costs, scarcity of long texts, and catastrophic values introduced by new token positions, current extended context windows are limited to around 128k tokens. This paper introduces LongRoPE that, for the first time, extends the context window of pre-trained LLMs to an impressive 2048k tokens, with up to only 1k fine-tuning steps at within 256k training lengths, while maintaining performance at the original short context window. This is achieved by three key innovations: (i) we identify and exploit two forms of non-uniformities in positional interpolation through an efficient search, providing a better initialization for fine-tuning and enabling an 8x extension in non-fine-tuning scenarios; (ii) we introduce a progressive extension strategy that first fine-tunes a 256k length LLM and then conducts a second positional interpolation on the fine-tuned extended LLM to achieve a 2048k context window; (iii) we readjust LongRoPE on 8k length to recover the short context window performance. Extensive experiments on LLaMA2 and Mistral across various tasks demonstrate the effectiveness of our method. Models extended via LongRoPE retain the original architecture with minor modifications to the positional embedding, and can reuse most pre-existing optimizations.
翻訳日:2024-02-22 15:32:59 公開日:2024-02-21
# プロシューマーコミュニティにおけるaiを活用した電力負荷予測

AI-Powered Predictions for Electricity Load in Prosumer Communities ( http://arxiv.org/abs/2402.13752v1 )

ライセンス: Link先を確認
Aleksei Kychkin, Georgios C. Chasparis(参考訳) 再生可能エネルギー源とエネルギー貯蔵(すなわち、プロシューマー)を含む住宅のコミュニティにおける電力消費と生産の柔軟性は、短期的な需要応答機構の進歩によって効果的に利用することができる。 集束群は電力消費の調整が容易なため、需要応答をプロシューマーのコミュニティレベルで行えば、さらに柔軟性が増すことが知られている。 しかし,このような短期的最適化の有効性は,各建物および地域全体の電力負荷予測の精度に大きく依存する。 電力負荷プロファイルの構造的変化は、気象条件、カレンダー情報、週の日といった異なる外因的要因、およびユーザーの振る舞いと関連付けられる。 本稿では, 電力負荷予測技術について概説し, 地域社会における電力負荷の最適化に有効であることを示す。 我々は,FacebookのProphetとLong Short-term Memory(LSTM)モデル,季節ベースのSARIMAとスムーズなHolt-Wintersモデル,ドメイン知識を利用した経験的回帰モデルなど,ブラックボックス時系列モデルで動作する短期負荷予測手法を提示し,検証する。 データ駆動時系列予測への天気予報の統合もテストされている。 その結果、持続的および回帰的用語の組み合わせ(負荷予測タスクに適応)が最適な予測精度を達成することが示された。

The flexibility in electricity consumption and production in communities of residential buildings, including those with renewable energy sources and energy storage (a.k.a., prosumers), can effectively be utilized through the advancement of short-term demand response mechanisms. It is known that flexibility can further be increased if demand response is performed at the level of communities of prosumers, since aggregated groups can better coordinate electricity consumption. However, the effectiveness of such short-term optimization is highly dependent on the accuracy of electricity load forecasts both for each building as well as for the whole community. Structural variations in the electricity load profile can be associated with different exogenous factors, such as weather conditions, calendar information and day of the week, as well as user behavior. In this paper, we review a wide range of electricity load forecasting techniques, that can provide significant assistance in optimizing load consumption in prosumer communities. We present and test artificial intelligence (AI) powered short-term load forecasting methodologies that operate with black-box time series models, such as Facebook's Prophet and Long Short-term Memory (LSTM) models; season-based SARIMA and smoothing Holt-Winters models; and empirical regression-based models that utilize domain knowledge. The integration of weather forecasts into data-driven time series forecasts is also tested. Results show that the combination of persistent and regression terms (adapted to the load forecasting task) achieves the best forecast accuracy.
翻訳日:2024-02-22 15:32:37 公開日:2024-02-21
# 障壁を破る: 推論知識グラフによる産業レコメンデーションシステムのための大規模言語モデルの利用

Breaking the Barrier: Utilizing Large Language Models for Industrial Recommendation Systems through an Inferential Knowledge Graph ( http://arxiv.org/abs/2402.13750v1 )

ライセンス: Link先を確認
Qian Zhao, Hao Qian, Ziqi Liu, Gong-Duo Zhang and Lihong Gu(参考訳) レコメンデーションシステムは、電子商取引ウェブサイトやオンラインプラットフォームで情報過負荷に対処するために広く利用されている。 しかし、既存のシステムは主に履歴データとユーザーフィードバックに依存しているため、ユーザーの意図の遷移を捉えるのが困難である。 近年、知識ベース(KB)ベースのモデルは専門家の知識を取り入れるために提案されているが、新しいアイテムや進化するeコマース環境への適応に苦慮している。 これらの課題に対処するため,我々はLarge Language Model based Complementary Knowledge Enhanced Recommendation System (LLM-KERec)を提案する。 アイテムとユーザ情報から統一概念用語を抽出するエンティティ抽出器を導入する。 コスト効率が高く信頼性の高い事前知識を提供するため、エンティティの人気と特定の戦略に基づいてエンティティペアを生成する。 大きな言語モデルは、それぞれのエンティティペアにおける補完関係を決定し、補完的な知識グラフを構築する。 さらに,新しい補足リコールモジュールとEntity-Entity-Item (E-E-I)重み決定モデルにより,実際の補足露出クリックサンプルを用いてランキングモデルのスコアリングを改良する。 3つの業界データセットで行った広範囲な実験は、既存のアプローチと比較して、モデルのパフォーマンスが大幅に向上していることを示している。 さらに,LCM-KERecは,補完項目を推奨することで,利用者の消費への熱意を高めることを示す。 要約すると、LLM-KERecは、補完的な知識を取り入れ、大きな言語モデルを利用してユーザー意図の遷移を捉え、新しい項目に適応し、進化するeコマースの展望におけるレコメンデーション効率を高めることによって、従来のレコメンデーションシステムの限界に対処する。

Recommendation systems are widely used in e-commerce websites and online platforms to address information overload. However, existing systems primarily rely on historical data and user feedback, making it difficult to capture user intent transitions. Recently, Knowledge Base (KB)-based models are proposed to incorporate expert knowledge, but it struggle to adapt to new items and the evolving e-commerce environment. To address these challenges, we propose a novel Large Language Model based Complementary Knowledge Enhanced Recommendation System (LLM-KERec). It introduces an entity extractor that extracts unified concept terms from item and user information. To provide cost-effective and reliable prior knowledge, entity pairs are generated based on entity popularity and specific strategies. The large language model determines complementary relationships in each entity pair, constructing a complementary knowledge graph. Furthermore, a new complementary recall module and an Entity-Entity-Item (E-E-I) weight decision model refine the scoring of the ranking model using real complementary exposure-click samples. Extensive experiments conducted on three industry datasets demonstrate the significant performance improvement of our model compared to existing approaches. Additionally, detailed analysis shows that LLM-KERec enhances users' enthusiasm for consumption by recommending complementary items. In summary, LLM-KERec addresses the limitations of traditional recommendation systems by incorporating complementary knowledge and utilizing a large language model to capture user intent transitions, adapt to new items, and enhance recommendation efficiency in the evolving e-commerce landscape.
翻訳日:2024-02-22 15:31:54 公開日:2024-02-21
# グラフニューラルネットワークにおける推論アルゴリズム

Reasoning Algorithmically in Graph Neural Networks ( http://arxiv.org/abs/2402.13744v1 )

ライセンス: Link先を確認
Danilo Numeroso(参考訳) 高度な推論能力を持つ人工知能システムの開発は、永続的で長期にわたる研究課題である。 伝統的に、この課題に対処する主要な戦略は、記号と明示的にプログラムされた規則によって、知識が明示的に表現される象徴的アプローチの採用であった。 しかし、機械学習の出現に伴い、データから自律的に学習できるシステムへのパラダイムシフトが起こり、人間によるガイダンスは最小限に抑えられた。 この変化を踏まえて、近年では、データ駆動学習と論理推論のギャップを埋めるために、推論能力を備えたニューラルネットワークへの関心と取り組みが増えている。 この文脈の中で、ニューラルネットワーク推論(NAR)は、アルゴリズムの構造的および規則に基づく推論とニューラルネットワークの適応学習能力を統合することを目的とした、有望な研究分野として際立っている。 この論文では、この研究領域に理論的および実践的な貢献をする。 我々は,ニューラルネットワークとトロピカル代数学の接続を探索し,アルゴリズムの実行と整合した強力なアーキテクチャを導出する。 さらに, 強双対性の原理など, 複雑なアルゴリズムと組合せ最適化の概念を学習し, 操作する神経推論の能力について論じる。 最後に,実験的な試みとして,様々な実用シナリオにおけるnarネットワークの実世界の有用性を検証する。 これには計画問題、大規模エッジ分類タスク、NPハード組合せ問題に対する多項式時間近似アルゴリズムの学習など多様なタスクが含まれる。 この探索を通じて,機械学習モデルにアルゴリズム的推論を統合する可能性を示すことを目的とする。

The development of artificial intelligence systems with advanced reasoning capabilities represents a persistent and long-standing research question. Traditionally, the primary strategy to address this challenge involved the adoption of symbolic approaches, where knowledge was explicitly represented by means of symbols and explicitly programmed rules. However, with the advent of machine learning, there has been a paradigm shift towards systems that can autonomously learn from data, requiring minimal human guidance. In light of this shift, in latest years, there has been increasing interest and efforts at endowing neural networks with the ability to reason, bridging the gap between data-driven learning and logical reasoning. Within this context, Neural Algorithmic Reasoning (NAR) stands out as a promising research field, aiming to integrate the structured and rule-based reasoning of algorithms with the adaptive learning capabilities of neural networks, typically by tasking neural models to mimic classical algorithms. In this dissertation, we provide theoretical and practical contributions to this area of research. We explore the connections between neural networks and tropical algebra, deriving powerful architectures that are aligned with algorithm execution. Furthermore, we discuss and show the ability of such neural reasoners to learn and manipulate complex algorithmic and combinatorial optimization concepts, such as the principle of strong duality. Finally, in our empirical efforts, we validate the real-world utility of NAR networks across different practical scenarios. This includes tasks as diverse as planning problems, large-scale edge classification tasks and the learning of polynomial-time approximate algorithms for NP-hard combinatorial problems. Through this exploration, we aim to showcase the potential integrating algorithmic reasoning in machine learning models.
翻訳日:2024-02-22 15:30:59 公開日:2024-02-21
# リレーショナルトリプル抽出のための表型プロンプトによるインストラクティブ・イン・コンテキスト学習のアンロック

Unlocking Instructive In-Context Learning with Tabular Prompting for Relational Triple Extraction ( http://arxiv.org/abs/2402.13741v1 )

ライセンス: Link先を確認
Guozheng Li, Wenjun Ke, Peng Wang, Zijie Xu, Ke Ji, Jiajun Liu, Ziyu Shang and Qiqing Luo(参考訳) リレーショナルトリプル抽出(RTE)のための文脈内学習(ICL)は,有望な性能を達成したが,(1)効果的なプロンプトの設計方法,(2)適切な実演を選択する方法の2つの大きな課題に直面している。 しかし、既存の方法はこれらの課題に適切に対処できない。 一方、彼らは通常、RTEタスクをテキストからテキストへのプロンプトフォーマットにリキャストするが、これは不自然であり、トレーニング前の出力フォーマットと大きな言語モデル(LLM)の推論時間とのミスマッチをもたらす。 一方,表層自然言語の特徴のみを生かし,サンプル選択における三重意味論の考慮を欠いている。 これらの問題は、icl for rteのパフォーマンス向上を妨げているため、迅速な設計とサンプル選択の課題を同時に取り組もうとしています。 この目的のために、RTEタスクをテーブル生成タスクにフレーム化するRTE(\textsc{TableIE})の表計算プロンプトを考案し、明示的な構造化情報をICLに組み込むことにより、出力をRTE構造に変換する。 そこで本研究では,大規模未ラベルサンプルの内部3つの意味論を考慮に入れた少数のサンプルのみを選択・注釈するインストラクティブ・イン・コンテクスト学習(I$^2$CL)を提案する。

The in-context learning (ICL) for relational triple extraction (RTE) has achieved promising performance, but still encounters two key challenges: (1) how to design effective prompts and (2) how to select proper demonstrations. Existing methods, however, fail to address these challenges appropriately. On the one hand, they usually recast RTE task to text-to-text prompting formats, which is unnatural and results in a mismatch between the output format at the pre-training time and the inference time for large language models (LLMs). On the other hand, they only utilize surface natural language features and lack consideration of triple semantics in sample selection. These issues are blocking improved performance in ICL for RTE, thus we aim to tackle prompt designing and sample selection challenges simultaneously. To this end, we devise a tabular prompting for RTE (\textsc{TableIE}) which frames RTE task into a table generation task to incorporate explicit structured information into ICL, facilitating conversion of outputs to RTE structures. Then we propose instructive in-context learning (I$^2$CL) which only selects and annotates a few samples considering internal triple semantics in massive unlabeled samples.
翻訳日:2024-02-22 15:29:47 公開日:2024-02-21
# TextからCQLへ - 自然言語とコーパス検索エンジンのブリッジ

From Text to CQL: Bridging Natural Language and Corpus Search Engine ( http://arxiv.org/abs/2402.13740v1 )

ライセンス: Link先を確認
Luming Lu, Jiyuan An, Yujie Wang, Liner yang, Cunliang Kong, Zhenghao Liu, Shuo Wang, Haozhe Lin, Mingwei Fang, Yaping Huang and Erhong Yang(参考訳) 自然言語処理(NLP)技術は、自然言語クエリをSQLのような形式的なクエリ言語に変換することに重点を置いて、情報システムとのインタラクション方法に革命をもたらした。 しかし、コーパスクエリ言語(CQL)は、言語研究とテキストコーパス内の詳細な分析のための重要なツールである。 CQLクエリのマニュアル構築は複雑で時間を要する作業であり、多くの専門知識を必要とする。 本稿では,自然言語のCQLへの翻訳を自動化することを目的とした,最初のテキスト間CQLタスクを提案する。 本稿では,大規模なデータセットと,大規模言語モデル(LLM)を有効テキスト・トゥ・CQLタスクに活用する方法論を含む,このタスクのための包括的なフレームワークを提案する。 さらに,生成したクエリの構文的および意味的精度を評価するために,高度な評価指標を構築した。 革新的なLCM変換手法と詳細な実験を行った。 提案手法の有効性を実証し,テキスト間CQLタスクの複雑さに関する知見を提供する。

Natural Language Processing (NLP) technologies have revolutionized the way we interact with information systems, with a significant focus on converting natural language queries into formal query languages such as SQL. However, less emphasis has been placed on the Corpus Query Language (CQL), a critical tool for linguistic research and detailed analysis within text corpora. The manual construction of CQL queries is a complex and time-intensive task that requires a great deal of expertise, which presents a notable challenge for both researchers and practitioners. This paper presents the first text-to-CQL task that aims to automate the translation of natural language into CQL. We present a comprehensive framework for this task, including a specifically curated large-scale dataset and methodologies leveraging large language models (LLMs) for effective text-to-CQL task. In addition, we established advanced evaluation metrics to assess the syntactic and semantic accuracy of the generated queries. We created innovative LLM-based conversion approaches and detailed experiments. The results demonstrate the efficacy of our methods and provide insights into the complexities of text-to-CQL task.
翻訳日:2024-02-22 15:29:02 公開日:2024-02-21
# LLM4SBR:セッションベース勧告における大規模言語モデル統合のための軽量で効果的なフレームワーク

LLM4SBR: A Lightweight and Effective Framework for Integrating Large Language Models in Session-based Recommendation ( http://arxiv.org/abs/2402.13840v1 )

ライセンス: Link先を確認
Shutong Qiao, Chen Gao, Junhao Wen, Wei Zhou, Qun Luo, Peixuan Chen and Yong Li(参考訳) 従来のセッションベースレコメンデーション(SBR)は、匿名ユーザからのセッション行動シーケンスを使用してレコメンデーションを行う。 この戦略は非常に効率的であるが、アイテムの固有の意味情報を犠牲にして、モデルがセッションの真の意図を理解するのを難しくし、推奨される結果に解釈可能性の欠如をもたらす。 近年,大規模言語モデル (LLM) は様々な領域で発展し,上記の課題に対処するための希望を垣間見せている。 LLMの影響に触発されて、LLMとRecommender System(RS)の統合を探求する研究は、雨後のキノコのように急増した。 しかし、高い時間と空間コスト、セッションデータの簡潔で匿名性によって制約されているため、産業展開に適した最初のllm推奨フレームワークはまだsbrの分野には現れていない。 上記の課題に対処するため、我々はLLM Integration Framework for SBR (LLM4SBR)を提案した。 LLM4SBRは軽量でプラグアンドプレイのフレームワークであり、2段階の戦略を採用している。 まず、セッションデータをテキストと振る舞いのバイモーダルな形式に変換する。 最初のステップでは、LLMの推論機能を活用し、異なる視点からセッションテキストデータを推論し、補助的な拡張のためのコンポーネントを設計する。 第2のステップでは、sbrモデルは行動データに基づいてトレーニングされ、異なる視点から2つのモーダルセッション表現を調整および平均化する。 最後に、異なる視点とモダリティからセッション表現を、推奨のための究極のセッション表現として融合する。 その結果, LLM4SBRは従来のSBRモデルの性能を大幅に改善し, 軽量で効率的であり, 産業展開に適していることがわかった。

Traditional session-based recommendation (SBR) utilizes session behavior sequences from anonymous users for recommendation. Although this strategy is highly efficient, it sacrifices the inherent semantic information of the items, making it difficult for the model to understand the true intent of the session and resulting in a lack of interpretability in the recommended results. Recently, large language models (LLMs) have flourished across various domains, offering a glimpse of hope in addressing the aforementioned challenges. Inspired by the impact of LLMs, research exploring the integration of LLMs with the Recommender system (RS) has surged like mushrooms after rain. However, constrained by high time and space costs, as well as the brief and anonymous nature of session data, the first LLM recommendation framework suitable for industrial deployment has yet to emerge in the field of SBR. To address the aforementioned challenges, we have proposed the LLM Integration Framework for SBR (LLM4SBR). Serving as a lightweight and plug-and-play framework, LLM4SBR adopts a two-step strategy. Firstly, we transform session data into a bimodal form of text and behavior. In the first step, leveraging the inferential capabilities of LLMs, we conduct inference on session text data from different perspectives and design the component for auxiliary enhancement. In the second step, the SBR model is trained on behavior data, aligning and averaging two modal session representations from different perspectives. Finally, we fuse session representations from different perspectives and modalities as the ultimate session representation for recommendation. We conducted experiments on two real-world datasets, and the results demonstrate that LLM4SBR significantly improves the performance of traditional SBR models and is highly lightweight and efficient, making it suitable for industrial deployment.
翻訳日:2024-02-22 15:21:48 公開日:2024-02-21
# 入院心不全患者の音声による死亡予測 : 診断バイオマーカーを用いた機械学習アプローチ

Voice-Driven Mortality Prediction in Hospitalized Heart Failure Patients: A Machine Learning Approach Enhanced with Diagnostic Biomarkers ( http://arxiv.org/abs/2402.13812v1 )

ライセンス: Link先を確認
Nihat Ahmadli, Mehmet Ali Sarsil, Berk Mizrak, Kurtulus Karauzum, Ata Shaker, Erol Tulumen, Didar Mirzamidinov, Dilek Ural, Onur Ergen(参考訳) 心臓不全(HF)を世界的な健康上の問題として扱うことは、患者ケアを強化する革新的なアプローチの実践に困難をもたらす。 特にhf患者の死亡率の予測は、個別のケア、積極的な管理、教育を受けた意思決定による成果の向上を必要とするため、困難かつ批判的である。 近年,機械学習(ML)と組み合わせた音声バイオマーカーの重要性が高まり,特に心不全の予測において顕著な効果が示された。 音声分析とMLアルゴリズムのシナジーは、患者の健康を評価する非侵襲的で容易にアクセスできる手段を提供する。 しかし、標準化された音声プロトコルを用いて心不全患者の死亡率を予測するための音声バイオマーカーが不足している。 そこで我々は,音声バイオマーカーを用いて,入院HF患者の死亡率を予測するための,強力かつ効果的なMLモデルを実証した。 音声バイオマーカーを日常的な患者モニタリングにシームレスに統合することにより、患者の成果を改善し、リソース割り当てを最適化し、患者中心のHF管理を進めることができる。 本研究では,機械学習システム,特にロジスティック回帰モデルを用いて,患者の音声を入力として5年間の死亡率を予測する。 このモデルは、クロスバリデーションと統計的アプローチ(p-値 < 0.001)で示されるように、素晴らしく一貫して動作する。 さらに、診断バイオマーカーであるNT-proBNPをHFに統合することで、モデルの予測精度が大幅に向上する。

Addressing heart failure (HF) as a prevalent global health concern poses difficulties in implementing innovative approaches for enhanced patient care. Predicting mortality rates in HF patients, in particular, is difficult yet critical, necessitating individualized care, proactive management, and enabling educated decision-making to enhance outcomes. Recently, the significance of voice biomarkers coupled with Machine Learning (ML) has surged, demonstrating remarkable efficacy, particularly in predicting heart failure. The synergy of voice analysis and ML algorithms provides a non-invasive and easily accessible means to evaluate patients' health. However, there is a lack of voice biomarkers for predicting mortality rates among heart failure patients with standardized speech protocols. Here, we demonstrate a powerful and effective ML model for predicting mortality rates in hospitalized HF patients through the utilization of voice biomarkers. By seamlessly integrating voice biomarkers into routine patient monitoring, this strategy has the potential to improve patient outcomes, optimize resource allocation, and advance patient-centered HF management. In this study, a Machine Learning system, specifically a logistic regression model, is trained to predict patients' 5-year mortality rates using their speech as input. The model performs admirably and consistently, as demonstrated by cross-validation and statistical approaches (p-value < 0.001). Furthermore, integrating NT-proBNP, a diagnostic biomarker in HF, improves the model's predictive accuracy substantially.
翻訳日:2024-02-22 15:21:20 公開日:2024-02-21
# 量子アニールにおけるダイアバティックエンハンスメントのロバスト性

Robustness of diabatic enhancement in quantum annealing ( http://arxiv.org/abs/2402.13811v1 )

ライセンス: Link先を確認
Natasha Feinstein, Ivan Shalashilin, Sougato Bose and Paul Warburton(参考訳) 断熱量子アニーリングでは、アニールが走れる速度は高い最終基底状態の忠実度を保ちながら、アニーリングスペクトルにおける基底状態と第一励起状態との間の最小ギャップの大きさによって決定される。 指数的に閉ざされたギャップに付随する指数的な減速を避けるために、アニールの終了前にシステムが基底状態に戻るように、より高いエネルギーレベルへのダイアバティック遷移を利用することができる。 ある場合には、これは元のアニーリングスペクトルによって促進される。 しかし、アニーリングするハミルトニアンを慎重に操作してスペクトルを変化させ、基底状態へのダイアバティックパスを作る例もある。 ダイアバティック遷移はスペクトルの進化速度とギャップサイズに依存するため、アニール時間の変化に対するポテンシャル増強の感度やスペクトルの操作に関わるパラメータを考慮することが重要である。 この感度は, 触媒によって生成される指数的閉鎖ギャップと, 調整可能な小さなギャップを含むアニールスペクトルを用いて検討する。 触媒強度とアニール時間の間には, 最終基底状態の忠実度の向上を維持するために, 精密度とアニール時間との間にトレードオフがあることが判明した。

In adiabatic quantum annealing, the speed with which an anneal can be run, while still achieving a high final ground state fidelity, is dictated by the size of the minimum gap that appears between the ground and first excited state in the annealing spectrum. To avoid the exponential slowdown associated with exponentially closing gaps, diabatic transitions to higher energy levels may be exploited in such a way that the system returns to the ground state before the end of the anneal. In certain cases, this is facilitated by the original annealing spectrum. However, there are also examples where careful manipulation of the annealing Hamiltonian has been used to alter the spectrum to create a diabatic path to the ground state. Since diabatic transitions depend on the evolution rate and the gap sizes in the spectrum, it is important to consider the sensitivity of any potential enhancement to changes in the anneal time as well as any parameters involved in the manipulation of the spectrum. We explore this sensitivity using annealing spectra containing an exponentially closing gap and an additional, tuneable, small gap created by a catalyst. We find that there is a trade-off between the precision needed in the catalyst strength and the anneal time in order to maintain the enhancement to the final ground state fidelity.
翻訳日:2024-02-22 15:20:55 公開日:2024-02-21
# プレコンディション付きランゲヴィンダイナミクスの喪失がヘッセンのランクを明らかに

The Expected Loss of Preconditioned Langevin Dynamics Reveals the Hessian Rank ( http://arxiv.org/abs/2402.13810v1 )

ライセンス: Link先を確認
Amitay Bar, Rotem Mulayoff, Tomer Michaeli, Ronen Talmon(参考訳) Langevin dynamics (LD) は分布のサンプリングや最適化に広く使われている。 本研究では,対象関数の定常点付近で事前条件付きLDの損失を期待する閉形式式を導出する。 このような点の近傍では、LDはオルンシュタイン・ウレンベック過程に還元され、便利な数学的処理が可能となる。 本解析により,プレコンディショニング行列が雑音共分散に関して特定の関係を満たすと,ldの期待損失は対象のヘッシアンのランクに比例することが明らかとなった。 この結果の適用性はニューラルネットワークの文脈で説明され、ヘシアンランクは予測関数の複雑さを捉えるために示されてきたが、通常計算的に探究するのは困難である。 最後に,sgdライクとアダムライクのプレコンディショナーを比較し,それぞれが期待する損失を減少させるレジームを同定する。

Langevin dynamics (LD) is widely used for sampling from distributions and for optimization. In this work, we derive a closed-form expression for the expected loss of preconditioned LD near stationary points of the objective function. We use the fact that at the vicinity of such points, LD reduces to an Ornstein-Uhlenbeck process, which is amenable to convenient mathematical treatment. Our analysis reveals that when the preconditioning matrix satisfies a particular relation with respect to the noise covariance, LD's expected loss becomes proportional to the rank of the objective's Hessian. We illustrate the applicability of this result in the context of neural networks, where the Hessian rank has been shown to capture the complexity of the predictor function but is usually computationally hard to probe. Finally, we use our analysis to compare SGD-like and Adam-like preconditioners and identify the regimes under which each of them leads to a lower expected loss.
翻訳日:2024-02-22 15:20:34 公開日:2024-02-21
# Neural Diffuser:一次視像誘導拡散を用いた制御可能なfMRI再構成

NeuralDiffuser: Controllable fMRI Reconstruction with Primary Visual Feature Guided Diffusion ( http://arxiv.org/abs/2402.13809v1 )

ライセンス: Link先を確認
Haoyu Li, Hao Wu, Badong Chen(参考訳) 潜在拡散モデル(LDM)に基づく機能的磁気共鳴イメージング(fMRI)による視覚刺激の再構成は、脳のきめ細かい検索を可能にする。 課題は、詳細(構造、背景、テクスチャ、色など)の凝集的なアラインメントを再構築することにある。 さらに、LDMは同じ条件下でも異なる画像結果を生成する。 そこで我々はまず,大量の画像から事前学習した知識に基づいてトップダウン生成を行うLCMベースの手法の神経科学的視点を明らかにする。 本稿では,LDMに基づく手法のボトムアッププロセスを拡張し,忠実なセマンティクスと詳細を実現するための視覚的特徴ガイダンスを提案する。 また, 様々な結果よりも, 繰り返し再現の一貫性を確保するための新しい指導戦略を開発した。 我々は,Nano Senses Dataset (NSD) におけるNeuralDiffuserの最先端性能を取得し,より忠実な詳細と一貫した結果を提供する。

Reconstructing visual stimuli from functional Magnetic Resonance Imaging (fMRI) based on Latent Diffusion Models (LDM) provides a fine-grained retrieval of the brain. A challenge persists in reconstructing a cohesive alignment of details (such as structure, background, texture, color, etc.). Moreover, LDMs would generate different image results even under the same conditions. For these, we first uncover the neuroscientific perspective of LDM-based methods that is top-down creation based on pre-trained knowledge from massive images but lack of detail-driven bottom-up perception resulting in unfaithful details. We propose NeuralDiffuser which introduces primary visual feature guidance to provide detail cues in the form of gradients, extending the bottom-up process for LDM-based methods to achieve faithful semantics and details. We also developed a novel guidance strategy to ensure the consistency of repeated reconstructions rather than a variety of results. We obtain the state-of-the-art performance of NeuralDiffuser on the Natural Senses Dataset (NSD), which offers more faithful details and consistent results.
翻訳日:2024-02-22 15:20:17 公開日:2024-02-21
# ヨーロッパにおけるオンライン談話における情報拡散の地理と移住

The Geography of Information Diffusion in Online Discourse on Europe and Migration ( http://arxiv.org/abs/2402.13800v1 )

ライセンス: Link先を確認
Elisa Leonardelli, Sara Tonelli(参考訳) 欧州に関する情報のオンライン拡散と移動は、外部の観点からはほとんど研究されていない。 しかし、特にユーザーがヨーロッパと直接接触しておらず、その認識がオンラインで検索された情報のみに依存している場合、これは非常に重要な話題である。 本研究では,ソーシャルメディア(twitter)から大量のデータを取得し,その拡散のトピックや大きさ,ダイナミクスに関する新たな洞察を得るため,欧州に関するオンライン情報とマイグレーションを解析した。 リツイートとハッシュタグのネットワーク分析とユーザの位置情報を組み合わせることで、データを地理的にリンクし、「ヨーロッパ外」の観点から分析を可能にし、アフリカに特化します。 また,言語内のコンテンツが他の言語でコメントされ,リツイートされた場合,その相互作用が遠方のコミュニティ間のつながりの代理であるとして,言語間引用に基づく新しいアプローチを導入する。 結果は、特に移行に関する議論において、オンライン議論の大半が国家レベルでどのように起こっているかを示している。 言語(英語)は、情報が国を越えて遠くに届くために重要である。 国際的な情報フローは、主にヨーロッパで生産され、外で増幅される。 逆に、ヨーロッパベースのアカウントは、移行関連のトピックについて議論するとき、自己参照的になる傾向がある。 サッカーはヨーロッパから最も輸出されたスポーツである。 さらに、移住に関する話題を議論するコミュニティの重要なノードには、ジャーナリスト、ニュース、コメンテーター、活動家とともに、公式機関や国際機関のアカウントが含まれる。

The online diffusion of information related to Europe and migration has been little investigated from an external point of view. However, this is a very relevant topic, especially if users have had no direct contact with Europe and its perception depends solely on information retrieved online. In this work we analyse the information circulating online about Europe and migration after retrieving a large amount of data from social media (Twitter), to gain new insights into topics, magnitude, and dynamics of their diffusion. We combine retweets and hashtags network analysis with geolocation of users, linking thus data to geography and allowing analysis from an "outside Europe" perspective, with a special focus on Africa. We also introduce a novel approach based on cross-lingual quotes, i.e. when content in a language is commented and retweeted in another language, assuming these interactions are a proxy for connections between very distant communities. Results show how the majority of online discussions occurs at a national level, especially when discussing migration. Language (English) is pivotal for information to become transnational and reach far. Transnational information flow is strongly unbalanced, with content mainly produced in Europe and amplified outside. Conversely Europe-based accounts tend to be self-referential when they discuss migration-related topics. Football is the most exported topic from Europe worldwide. Moreover, important nodes in the communities discussing migration-related topics include accounts of official institutions and international agencies, together with journalists, news, commentators and activists.
翻訳日:2024-02-22 15:19:57 公開日:2024-02-21
# 衛星画像からのれんが検出・コンプライアンスモニタリングのためのスケーラブルな方法:インドにおける展開事例

Scalable Methods for Brick Kiln Detection and Compliance Monitoring from Satellite Imagery: A Deployment Case Study in India ( http://arxiv.org/abs/2402.13796v1 )

ライセンス: Link先を確認
Rishabh Mondal, Zeel B Patel, Vannsh Jani, Nipun Batra(参考訳) 大気汚染は年間700万人が死亡している。 レンガ製造産業はインド・ガンジスタン平原(インド亜大陸の人口の多い土地)の大気汚染の8%-14%に寄与する石炭の2番目に大きな消費地である。 レンガキルンは非組織的な分野であり、多く存在するため、生息地からの距離などの政策違反を検出することは容易ではない。 空気の品質や他のドメインの専門家は、レンガのキルン在庫を維持するために人手による注釈に依存している。 これまでの研究では、衛星画像からレンガのキルンを検出するためにコンピュータビジョンベースの機械学習手法を使用していたが、それらは特定の地形に限定されており、データのラベル付けは手間がかかる。 本論文では,インド・ガンガティック平野の28の地域から7477個の新しいレンガキルンを同定し,スケーラブルなレンガキルン検出システムをインドなどの大国に展開する枠組みを提案する。 次に,高空間密度のキルンや時間経過に伴う異常増加など,政策違反をチェックする効率的な方法を示す。 我々はデリー-NCRのれんがの90%が密度に基づく政策に違反していることを示す。 我々の枠組みは世界中の政府によって直接採用され、レンガキルンに関する政策規制が自動化される。

Air pollution kills 7 million people annually. Brick manufacturing industry is the second largest consumer of coal contributing to 8%-14% of air pollution in Indo-Gangetic plain (highly populated tract of land in the Indian subcontinent). As brick kilns are an unorganized sector and present in large numbers, detecting policy violations such as distance from habitat is non-trivial. Air quality and other domain experts rely on manual human annotation to maintain brick kiln inventory. Previous work used computer vision based machine learning methods to detect brick kilns from satellite imagery but they are limited to certain geographies and labeling the data is laborious. In this paper, we propose a framework to deploy a scalable brick kiln detection system for large countries such as India and identify 7477 new brick kilns from 28 districts in 5 states in the Indo-Gangetic plain. We then showcase efficient ways to check policy violations such as high spatial density of kilns and abnormal increase over time in a region. We show that 90% of brick kilns in Delhi-NCR violate a density-based policy. Our framework can be directly adopted by the governments across the world to automate the policy regulations around brick kilns.
翻訳日:2024-02-22 15:19:34 公開日:2024-02-21
# プログラム実行の信頼できる分散認証

Trustworthy Distributed Certification of Program Execution ( http://arxiv.org/abs/2402.13792v1 )

ライセンス: Link先を確認
Alex Wolf, Marco Eduardo Palma, Pasquale Salza, Harald C. Gall(参考訳) プログラムの実行の検証は複雑で、コードの正確性を検証することができないため、しばしば制限される。 これは科学研究の重要な側面であり、実験結果の再現性と妥当性を保証する必要がある。 同様に、顧客ソフトウェアテストでは、顧客が特定のプログラムバージョンがテストされたか、あるいは実行されたかを確認するのは難しい。 ハードウェアベースのアプローチ、制約解決システム、検証可能な計算システムといった既存の最先端ソリューションは、実行の確かな証明を提供しておらず、信頼性の高いテストとプログラム結果の分析を妨げる。 本稿では,プログラムセグメントの分散分散再実行を実現するために,monaと呼ばれるプロトタイププログラミング言語と認証プロトコルoccpを組み合わせた革新的な手法を提案する。 本プロトコルでは,プログラムセグメントを分散・不変・信頼性のあるシステムで再実行することなく認証することが可能であり,使用時間と計算資源の面で大幅に改善した。 また、この分野の他のアプローチに従って、プロトコルワークフローを管理するためのブロックチェーンテクノロジの利用についても検討しています。 このアプローチは,プログラム実行検証の課題に対する有望な解決策を提供し,この分野におけるさらなる研究開発の機会を開放する。 本研究は,既存手法と比較してプログラム実行数を削減し,プログラム実行の検証効率を向上させる手法の有効性を示す。

Verifying the execution of a program is complicated and often limited by the inability to validate the code's correctness. It is a crucial aspect of scientific research, where it is needed to ensure the reproducibility and validity of experimental results. Similarly, in customer software testing, it is difficult for customers to verify that their specific program version was tested or executed at all. Existing state-of-the-art solutions, such as hardware-based approaches, constraint solvers, and verifiable computation systems, do not provide definitive proof of execution, which hinders reliable testing and analysis of program results. In this paper, we propose an innovative approach that combines a prototype programming language called Mona with a certification protocol OCCP to enable the distributed and decentralized re-execution of program segments. Our protocol allows for certification of program segments in a distributed, immutable, and trustworthy system without the need for naive re-execution, resulting in significant improvements in terms of time and computational resources used. We also explore the use of blockchain technology to manage the protocol workflow following other approaches in this space. Our approach offers a promising solution to the challenges of program execution verification and opens up opportunities for further research and development in this area. Our findings demonstrate the efficiency of our approach in reducing the number of program executions compared to existing state-of-the-art methods, thus improving the efficiency of certifying program executions.
翻訳日:2024-02-22 15:19:12 公開日:2024-02-21
# Black-Box: リモートセンシングにおける説明可能なAIのシステムレビュー

Opening the Black-Box: A Systematic Review on Explainable AI in Remote Sensing ( http://arxiv.org/abs/2402.13791v1 )

ライセンス: Link先を確認
Adrian H\"ohl, Ivica Obadic, Miguel \'Angel Fern\'andez Torres, Hiba Najjar, Dario Oliveira, Zeynep Akata, Andreas Dengel, Xiao Xiang Zhu(参考訳) 近年,遠隔センシングにおける知識抽出のモデルパラダイムとして,ブラックボックス機械学習が主流となっている。 これらのモデルの内部動作を説明可能なAIで明らかにする潜在的なメリットにもかかわらず、使用済みのAIメソッドとその目的、発見、そしてリモートセンシングアプリケーションの課題を要約する包括的な概要は、いまだに欠落している。 本稿では,リモートセンシングにおいて説明可能なaiがどのように使われているのかを体系的に検討し,新しい説明可能なaiアプローチと,特定のリモートセンシング課題に取り組む新たな方向について考察する。 また、解釈の共通パターンを明らかにし、リモートセンシングにおける科学的知見を抽出し、説明可能なAI手法の評価に用いるアプローチを考察する。 我々のレビューは、この分野における最先端の完全な概要を提供する。 さらに,新しい方法論開発の基礎と,遠隔センシングにおける説明可能なAI分野の新たな研究者にとって有用な出発点として,課題と期待できる研究方向性について,より詳細な展望を述べる。

In recent years, black-box machine learning approaches have become a dominant modeling paradigm for knowledge extraction in Remote Sensing. Despite the potential benefits of uncovering the inner workings of these models with explainable AI, a comprehensive overview summarizing the used explainable AI methods and their objectives, findings, and challenges in Remote Sensing applications is still missing. In this paper, we address this issue by performing a systematic review to identify the key trends of how explainable AI is used in Remote Sensing and shed light on novel explainable AI approaches and emerging directions that tackle specific Remote Sensing challenges. We also reveal the common patterns of explanation interpretation, discuss the extracted scientific insights in Remote Sensing, and reflect on the approaches used for explainable AI methods evaluation. Our review provides a complete summary of the state-of-the-art in the field. Further, we give a detailed outlook on the challenges and promising research directions, representing a basis for novel methodological development and a useful starting point for new researchers in the field of explainable AI in Remote Sensing.
翻訳日:2024-02-22 15:18:50 公開日:2024-02-21
# 深層強化学習ポリシーに基づく階層型コントローラの合成

Synthesis of Hierarchical Controllers Based on Deep Reinforcement Learning Policies ( http://arxiv.org/abs/2402.13785v1 )

ライセンス: Link先を確認
Florent Delgrange, Guy Avni, Anna Lukina, Christian Schilling, Ann Now\'e, and Guillermo A. P\'erez(参考訳) 本稿では,マルコフ決定過程 (MDP) をモデル化した環境におけるコントローラ設計問題に対する新しいアプローチを提案する。 具体的には、階層型 MDP を、各頂点が「部屋」と呼ばれる MDP に占めるグラフとみなす。 まず,各室の低レベル政策を得るために深層強化学習(DRL)を適用し,未知の構造の広い部屋へ拡張する。 次に, 各室でどの低レベルポリシーを実行するかを選択する高レベルプランナを得るために, 反応合成を適用する。 プランナーを合成する上での中心的な課題は、モデリングルームの必要性である。 そこで我々は,PACの保証とともに,簡潔な"遅延"ポリシーを訓練するためのDRL手順を開発することで,この問題に対処する。 以前のアプローチとは異なり、我々のシステムはモデル蒸留ステップを回避します。 本手法は,低レベル政策の再利用を可能にするため,DRLのスパース報酬に対処する。 移動障害物中のエージェントナビゲーションを含むケーススタディで実現可能性を示す。

We propose a novel approach to the problem of controller design for environments modeled as Markov decision processes (MDPs). Specifically, we consider a hierarchical MDP a graph with each vertex populated by an MDP called a "room". We first apply deep reinforcement learning (DRL) to obtain low-level policies for each room, scaling to large rooms of unknown structure. We then apply reactive synthesis to obtain a high-level planner that chooses which low-level policy to execute in each room. The central challenge in synthesizing the planner is the need for modeling rooms. We address this challenge by developing a DRL procedure to train concise "latent" policies together with PAC guarantees on their performance. Unlike previous approaches, ours circumvents a model distillation step. Our approach combats sparse rewards in DRL and enables reusability of low-level policies. We demonstrate feasibility in a case study involving agent navigation amid moving obstacles.
翻訳日:2024-02-22 15:18:32 公開日:2024-02-21
# 確率的およびニューロシンボリック論理プログラミングのためのセミリング

Semirings for Probabilistic and Neuro-Symbolic Logic Programming ( http://arxiv.org/abs/2402.13782v1 )

ライセンス: Link先を確認
Vincent Derkinderen, Robin Manhaeve, Pedro Zuidberg Dos Martires, Luc De Raedt(参考訳) 確率的論理プログラミング(plp)の分野は、確率的モデルを論理に基づくプログラミング言語に統合することに焦点を当てている。 過去30年間、確率論理プログラムのモデリング、推論、学習のために多くの言語とフレームワークが開発されてきた。 もともとplpは離散確率に焦点を当てていたが、より最近のアプローチでは連続分布とニューラルネットワークが組み込まれており、効果的にニューラルシンボリックな手法を生み出している。 PLPに統一的な代数的視点を与え、PLPの拡張のほとんどでないものの多くは共通代数論理プログラミングフレームワークにキャストされ、事実は半順序と解離の要素でラベル付けされ、結合は加算と乗法に置き換えられることを示す。 これはPLPのバリエーションそのものだけでなく、(代数的な)モデルカウントに基づく実行メカニズムにも当てはまります。

The field of probabilistic logic programming (PLP) focuses on integrating probabilistic models into programming languages based on logic. Over the past 30 years, numerous languages and frameworks have been developed for modeling, inference and learning in probabilistic logic programs. While originally PLP focused on discrete probability, more recent approaches have incorporated continuous distributions as well as neural networks, effectively yielding neural-symbolic methods. We provide a unified algebraic perspective on PLP, showing that many if not most of the extensions of PLP can be cast within a common algebraic logic programming framework, in which facts are labeled with elements of a semiring and disjunction and conjunction are replaced by addition and multiplication. This does not only hold for the PLP variations itself but also for the underlying execution mechanism that is based on (algebraic) model counting.
翻訳日:2024-02-22 15:18:18 公開日:2024-02-21
# スケーラブルな分散ディープラーニングのための準最適勾配スパーシフィケーションコストの維持

Preserving Near-Optimal Gradient Sparsification Cost for Scalable Distributed Deep Learning ( http://arxiv.org/abs/2402.13781v1 )

ライセンス: Link先を確認
Daegun Yoon, Sangyoon Oh(参考訳) 分散トレーニングシステムのスケールアップには,通信オーバーヘッドが大きな障害になります。 勾配スパーシフィケーション(gradient sparsification)は、モデルの忠実さを損なうことなく通信量を削減できる潜在的な最適化アプローチである。 しかし,従来の勾配スペーシフィケーション手法は,アルゴリズムの非効率設計のためスケーラビリティが低く,通信オーバーヘッドが著しく増大する。 特に、勾配の組立と不適切なスパーシティ制御は、スパーシフィケーション性能を著しく低下させる。 さらに、作業者間の勾配選択の不均衡により、通信トラフィックが大幅に増加する。 これらの課題に対処するため,我々はexdynaと呼ばれる新しい勾配スパーシフィケーションスキームを提案する。 exdynaでは、モデルの勾配テンソルは細粒度ブロックを含み、連続したブロックは重複しないパーティションにグループ化される。 各ワーカーは専用のパーティションで勾配を選択し、勾配のビルドは決して起こらない。 ワーカー間の勾配選択のワークロードのバランスをとるために、ExDynaは隣接するパーティションのワークロードを比較してパーティションのトポロジを調整する。 さらに、exdynaはオンラインしきい値スケーリングをサポートし、オンザフライでの勾配選択の正確なしきい値を推定する。 したがって、ExDynaは、モデルやデータセットに関わらず、トレーニング期間中に、ユーザが要求するスパーシリティレベルを満たすことができる。 したがってexdynaは,準最適勾配スパーシフィケーションコストを保ちながら,分散トレーニングシステムのスケーラビリティを向上させることができる。 実験では、ExDynaはトレーニング速度とスパシフィケーション性能の点で最先端のスパシファイアより優れ、精度が高い。

Communication overhead is a major obstacle to scaling distributed training systems. Gradient sparsification is a potential optimization approach to reduce the communication volume without significant loss of model fidelity. However, existing gradient sparsification methods have low scalability owing to inefficient design of their algorithms, which raises the communication overhead significantly. In particular, gradient build-up and inadequate sparsity control methods degrade the sparsification performance considerably. Moreover, communication traffic increases drastically owing to workload imbalance of gradient selection between workers. To address these challenges, we propose a novel gradient sparsification scheme called ExDyna. In ExDyna, the gradient tensor of the model comprises fined-grained blocks, and contiguous blocks are grouped into non-overlapping partitions. Each worker selects gradients in its exclusively allocated partition so that gradient build-up never occurs. To balance the workload of gradient selection between workers, ExDyna adjusts the topology of partitions by comparing the workloads of adjacent partitions. In addition, ExDyna supports online threshold scaling, which estimates the accurate threshold of gradient selection on-the-fly. Accordingly, ExDyna can satisfy the user-required sparsity level during a training period regardless of models and datasets. Therefore, ExDyna can enhance the scalability of distributed training systems by preserving near-optimal gradient sparsification cost. In experiments, ExDyna outperformed state-of-the-art sparsifiers in terms of training speed and sparsification performance while achieving high accuracy.
翻訳日:2024-02-22 15:18:04 公開日:2024-02-21
# 化学反応知識を用いた文脈分子表現学習

Contextual Molecule Representation Learning from Chemical Reaction Knowledge ( http://arxiv.org/abs/2402.13779v1 )

ライセンス: Link先を確認
Han Tang, Shikun Feng, Bicheng Lin, Yuyan Ni, JIngjing Liu, Wei-Ying Ma, Yanyan Lan(参考訳) 近年、自己教師あり学習は、豊富なラベルのないデータを表現学習に活用する強力なツールとして登場し、様々な分野で広く採用されている。 しかしながら、分子表象学習(mrl)に適用すると、マスキング・リコンストラクションパラダイムにおいて、分子内の原子の組合せの可能性の高い自由度のため、マスキングサブユニット再構成のような一般的な手法が不足することが多い。 この課題に取り組むために,我々は共通化学における原子結合規則をうまく活用した自己教師付き学習フレームワークremoを紹介する。 特に、remoは170万の既知の化学反応でグラフ/トランスフォーマーエンコーダを事前訓練している。 本研究では,MRCR (Masked Reaction Centre Reconstruction) とRCI (Reaction Centre Identification) の2つの事前学習目標を提案する。 REMOは、化学反応における基礎となる共有パターンを事前学習の「textit{context}」として活用することで、MRLに新しい解決策を提供する。 このような文脈表現は、アフィニティ予測や薬物と薬物の相互作用予測など、最小限の微調整で下流分子タスクをサポートするために利用できる。 分子ACE, ACNet, 薬物と薬物の相互作用 (DDI) および反応型分類の広範囲にわたる実験結果から, REMOは現在のMRLで用いられる単一分子マスマスキングの標準基準よりも優れていることが示された。 驚くべきことに、remoはアクティビティクリフベンチマークで指紋ベースの方法を上回る、先駆的なディープラーニングモデルである。

In recent years, self-supervised learning has emerged as a powerful tool to harness abundant unlabelled data for representation learning and has been broadly adopted in diverse areas. However, when applied to molecular representation learning (MRL), prevailing techniques such as masked sub-unit reconstruction often fall short, due to the high degree of freedom in the possible combinations of atoms within molecules, which brings insurmountable complexity to the masking-reconstruction paradigm. To tackle this challenge, we introduce REMO, a self-supervised learning framework that takes advantage of well-defined atom-combination rules in common chemistry. Specifically, REMO pre-trains graph/Transformer encoders on 1.7 million known chemical reactions in the literature. We propose two pre-training objectives: Masked Reaction Centre Reconstruction (MRCR) and Reaction Centre Identification (RCI). REMO offers a novel solution to MRL by exploiting the underlying shared patterns in chemical reactions as \textit{context} for pre-training, which effectively infers meaningful representations of common chemistry knowledge. Such contextual representations can then be utilized to support diverse downstream molecular tasks with minimum finetuning, such as affinity prediction and drug-drug interaction prediction. Extensive experimental results on MoleculeACE, ACNet, drug-drug interaction (DDI), and reaction type classification show that across all tested downstream tasks, REMO outperforms the standard baseline of single-molecule masked modeling used in current MRL. Remarkably, REMO is the pioneering deep learning model surpassing fingerprint-based methods in activity cliff benchmarks.
翻訳日:2024-02-22 15:17:41 公開日:2024-02-21
# Bi-parametric MR画像における強化学習による前立腺癌の局所化

Weakly supervised localisation of prostate cancer using reinforcement learning for bi-parametric MR images ( http://arxiv.org/abs/2402.13778v1 )

ライセンス: Link先を確認
Martynas Pocius, Wen Yan, Dean C. Barratt, Mark Emberton, Matthew J. Clarkson, Yipeng Hu, Shaheer U. Saeed(参考訳) 本稿では,ローカライゼーションのための強化学習に基づく弱教師付きシステムを提案する。 画像や画像作物におけるオブジェクトの存在を分類する事前訓練されたバイナリ分類器によって生成された非バイナリ化分類確率を利用する新たな報酬定義を導入することにより、画像内の関心領域のローカライズをコントローラ関数に訓練する。 オブジェクトプレゼンス分類器は、オブジェクトを含む画像の可能性を定量化することにより、コントローラにそのローカライズ品質を通知することができる。 このようなアプローチにより、完全に監視された局所化のために、人間のラベルによる潜在的なラベル付けや人間のバイアスを最小限に抑えることができる。 前立腺の2パラメータMR画像の大規模データセットを用いた癌病変局所化の課題に対する提案手法の評価を行った。 弱教師付き局所化と完全教師付きベースラインとの比較により,提案手法は,画像レベルの分類ラベルのみを用いて,教師付き学習に比較可能であった。

In this paper we propose a reinforcement learning based weakly supervised system for localisation. We train a controller function to localise regions of interest within an image by introducing a novel reward definition that utilises non-binarised classification probability, generated by a pre-trained binary classifier which classifies object presence in images or image crops. The object-presence classifier may then inform the controller of its localisation quality by quantifying the likelihood of the image containing an object. Such an approach allows us to minimize any potential labelling or human bias propagated via human labelling for fully supervised localisation. We evaluate our proposed approach for a task of cancerous lesion localisation on a large dataset of real clinical bi-parametric MR images of the prostate. Comparisons to the commonly used multiple-instance learning weakly supervised localisation and to a fully supervised baseline show that our proposed method outperforms the multi-instance learning and performs comparably to fully-supervised learning, using only image-level classification labels for training.
翻訳日:2024-02-22 15:17:12 公開日:2024-02-21
# rfi-drunet: 電波干渉による動的スペクトルの回復 -- パルサー観測への応用

RFI-DRUnet: Restoring dynamic spectra corrupted by radio frequency interference -- Application to pulsar observations ( http://arxiv.org/abs/2402.13867v1 )

ライセンス: Link先を確認
Xiao Zhang, Isma\"el Cognard and Nicolas Dobigeon(参考訳) 電波干渉(RFI)は、特に高いタイミング精度とデータ感度を必要とするパルサーの観測において、ラジオ天文学において永続的な関心事となっている。 文献のほとんどの研究において、RFI緩和は動的スペクトルにおける可能なRFIの局在化からなる検出タスクとして定式化されている。 この戦略は、RFIが故障した可能性のある信号の一部が後続のデータ処理パイプラインでは一般的に考慮されないため、必然的に情報を失う可能性がある。 他方,本研究は,rfiの影響を受ける動的スペクトルの一部を同定するだけでなく,回復させる共同検出・修復として,rfi緩和に取り組むことを提案する。 提案手法は,最近普及したイメージデオライジングネットワークが達成した性能をアーキテクチャが継承する,深い畳み込みネットワークに依存している。 このネットワークをトレーニングするために、パルサー信号とRFIの物理モデルおよび統計モデルに基づいて、大規模なデータセットを生成するシミュレーションフレームワークが構築されている。 提案手法の妥当性は広範な実験によって定量的に評価される。 特に、復元された動的スペクトルは、rfiフリー信号から得られるものに近い精度でパルサーの時間長の推定に十分信頼性があることが示されている。

Radio frequency interference (RFI) have been an enduring concern in radio astronomy, particularly for the observations of pulsars which require high timing precision and data sensitivity. In most works of the literature, RFI mitigation has been formulated as a detection task that consists of localizing possible RFI in dynamic spectra. This strategy inevitably leads to a potential loss of information since parts of the signal identified as possibly RFI-corrupted are generally not considered in the subsequent data processing pipeline. Conversely, this work proposes to tackle RFI mitigation as a joint detection and restoration that allows parts of the dynamic spectrum affected by RFI to be not only identified but also recovered. The proposed supervised method relies on a deep convolutional network whose architecture inherits the performance reached by a recent yet popular image-denoising network. To train this network, a whole simulation framework is built to generate large data sets according to physics-inspired and statistical models of the pulsar signals and of the RFI. The relevance of the proposed approach is quantitatively assessed by conducting extensive experiments. In particular, the results show that the restored dynamic spectra are sufficiently reliable to estimate pulsar times-of-arrivals with an accuracy close to the one that would be obtained from RFI-free signals.
翻訳日:2024-02-22 15:09:42 公開日:2024-02-21
# トンネル動力学のための結合コヒーレント状態法:解釈的研究

Coupled coherent states method for tunneling dynamics: an interpretative study ( http://arxiv.org/abs/2402.13847v1 )

ライセンス: Link先を確認
Frank Grossmann(参考訳) 変動原理に基づく時間依存シュリンガー方程式の数値解は、位置と運動量空間における固定格子を用いた解では得られない物理的な洞察を与えることができる。 ここでは, 石英二重坑内のトンネル力学と古典的, トラジェクトリー誘導コヒーレント状態を用いて, シャラシリンとチャイルド[J]によって開発された結合コヒーレント状態法の作用について考察する。 チェム Phys a bf 113}, 10028 (2000)] オーバーザバリアな古典軌道だけでトンネル効果を正確に記述できることが示されている。

Numerical solutions of the time-dependent Schr\"odinger equation based on the variational principle may offer physical insight that cannot be gained by a solution using fixed grids in position and momentum space. Here we focus on the tunneling dynamics in a quartic double-well and the use of classical, trajectory-guided coherent states to gain insight into the workings of the coupled coherent states method developed by Shalashilin and Child [J. Chem. Phys. {\bf 113}, 10028 (2000)]. It is shown that over-the-barrier classical trajectories, alone, can accurately describe the tunneling effect.
翻訳日:2024-02-22 15:09:23 公開日:2024-02-21
# 大きな言語モデルは高度な匿名化子です

Large Language Models are Advanced Anonymizers ( http://arxiv.org/abs/2402.13846v1 )

ライセンス: Link先を確認
Robin Staab, Mark Vero, Mislav Balunovi\'c, Martin Vechev(参考訳) 大規模言語モデルに関する最近のプライバシー研究は、実際のオンラインテキストから個人データを推測することで、ほぼ人間レベルのパフォーマンスを達成することを示した。 一貫して増大するモデル機能により、既存のテキスト匿名化手法は、現在規制要件と敵対的な脅威の背後に欠けている。 これは、個人がオンラインテキストの共有において、個人データを効果的に保護できるかという疑問を提起する。 本研究は、まず、敵のLLM推論に直面する匿名性を評価するための新しい設定を提示し、従来のメトリクスの欠点のいくつかを補いながら、匿名性の評価を自然に行えるようにする。 次に, LLMの強い推論能力を利用して, LLMに基づく逆匿名化手法を提案する。 本実験では,実世界および合成オンラインテキストに対して,実用性とプライバシの両面で,現在の業界級の匿名化よりも敵意的な匿名化が優れていることを示す。

Recent work in privacy research on large language models has shown that they achieve near human-level performance at inferring personal data from real-world online texts. With consistently increasing model capabilities, existing text anonymization methods are currently lacking behind regulatory requirements and adversarial threats. This raises the question of how individuals can effectively protect their personal data in sharing online texts. In this work, we take two steps to answer this question: We first present a new setting for evaluating anonymizations in the face of adversarial LLMs inferences, allowing for a natural measurement of anonymization performance while remedying some of the shortcomings of previous metrics. We then present our LLM-based adversarial anonymization framework leveraging the strong inferential capabilities of LLMs to inform our anonymization procedure. In our experimental evaluation, we show on real-world and synthetic online texts how adversarial anonymization outperforms current industry-grade anonymizers both in terms of the resulting utility and privacy.
翻訳日:2024-02-22 15:09:10 公開日:2024-02-21
# 雇用・機会のためのネットワーク形成における均衡・効率・不平等

Equilibria, Efficiency, and Inequality in Network Formation for Hiring and Opportunity ( http://arxiv.org/abs/2402.13841v1 )

ライセンス: Link先を確認
Cynthia Dwork, Chris Hays, Jon Kleinberg, Manish Raghavan(参考訳) 特定の仕事の列にいる人たちのソーシャルネットワークであるプロフェッショナルネットワークは、仕事の見通しやその他の機会のコンジットとして機能する。 本稿では,そのようなネットワークの形成とネットワーク内の機会伝達のモデルを提案する。 我々の理論モデルでは、個人は他者と戦略的につながり、機会を得られる確率を最大化する。 プロのネットワークがコネクティビティのバランスを保ち、外部のソースからアクセスできない人たちへのコネクティビティの移行を促進する方法や、コネクティビティから多くの機会を受け取りすぎたり、そのいくつかを無駄にするような渋滞について検討する。 戦略的個人は、社会的最適性に対して均衡が過大に結びついており、ほぼ漸近的な境界を導き出すアナキシーの価格につながることを示す。 また、平衡状態では、個人が他人に同様の利益をもたらす者とのつながりを形成することも示している。 したがって,本モデルは「相似性はつながりを育む」というホモフィイの基本社会学的原理を専門的ネットワークの文脈においてマイクロファウンデーションとして提供する。 我々はさらに、たとえ個人が外部の情報源から機会を受け取る機会が等しくあるとしても、均衡は不平等であり、それがいかに不平等であるかについて、ほぼ厳格な境界を与えることができるかについても検討する。 最後に,オンラインプラットフォームが社会福祉改善に介入する可能性を探究し,自然ヒューリスティックスが平衡状態において悪影響を及ぼす可能性を示す。 我々の単純なモデルは、プロのネットワークにおける調整問題の驚くほど豊富な分析を可能にし、さらなる探索のための多くの方向を示唆する。

Professional networks -- the social networks among people in a given line of work -- can serve as a conduit for job prospects and other opportunities. Here we propose a model for the formation of such networks and the transfer of opportunities within them. In our theoretical model, individuals strategically connect with others to maximize the probability that they receive opportunities from them. We explore how professional networks balance connectivity, where connections facilitate opportunity transfers to those who did not get them from outside sources, and congestion, where some individuals receive too many opportunities from their connections and waste some of them. We show that strategic individuals are over-connected at equilibrium relative to a social optimum, leading to a price of anarchy for which we derive nearly tight asymptotic bounds. We also show that, at equilibrium, individuals form connections to those who provide similar benefit to them as they provide to others. Thus, our model provides a microfoundation in professional networking contexts for the fundamental sociological principle of homophily, that "similarity breeds connection," which in our setting is realized as a form of status homophily based on alignment in individual benefit. We further explore how, even if individuals are a priori equally likely to receive opportunities from outside sources, equilibria can be unequal, and we provide nearly tight bounds on how unequal they can be. Finally, we explore the ability for online platforms to intervene to improve social welfare and show that natural heuristics may result in adverse effects at equilibrium. Our simple model allows for a surprisingly rich analysis of coordination problems in professional networks and suggests many directions for further exploration.
翻訳日:2024-02-22 15:08:53 公開日:2024-02-21
# MLXP: Pythonで複製可能な機械学習eXperimentsを実行するフレームワーク

MLXP: A framework for conducting replicable Machine Learning eXperiments in Python ( http://arxiv.org/abs/2402.13831v1 )

ライセンス: Link先を確認
Michael Arbel, Alexandre Zouaoui(参考訳) 機械学習(ML)研究の再現性は、複雑な非決定論的アルゴリズムの利用と、モデルアーキテクチャやトレーニングデータセットなどの多くのハイパーパラメータ選択への依存により、ますます懸念されている。 再現性と複製性のある結果の確保は、この分野を前進させるには不可欠であるが、堅牢な結論を得るための体系的かつよく組織された実験を行うためには、重要な技術的努力を必要とすることが多い。 実験管理と再現性を高めるためにいくつかのツールが開発されているが、工業環境ではうまく処理されているにもかかわらず、研究コミュニティでは採用を妨げる複雑さがしばしば導入されている。 低採用の課題に対処するため、オープンソースでシンプルで軽量なPythonベースの実験管理ツールであるMLXPがhttps://github.com/inria-thoth/mlxp で公開されている。 MLXPは、高い再現性を確保しながら、最小限のオーバーヘッドで実験プロセスを合理化します。

Replicability in machine learning (ML) research is increasingly concerning due to the utilization of complex non-deterministic algorithms and the dependence on numerous hyper-parameter choices, such as model architecture and training datasets. Ensuring reproducible and replicable results is crucial for advancing the field, yet often requires significant technical effort to conduct systematic and well-organized experiments that yield robust conclusions. Several tools have been developed to facilitate experiment management and enhance reproducibility; however, they often introduce complexity that hinders adoption within the research community, despite being well-handled in industrial settings. To address the challenge of low adoption, we propose MLXP, an open-source, simple, and lightweight experiment management tool based on Python, available at https://github.com/inria-thoth/mlxp . MLXP streamlines the experimental process with minimal practitioner overhead while ensuring a high level of reproducibility.
翻訳日:2024-02-22 15:08:20 公開日:2024-02-21
# 折り紙:(un)プログラム合成のための再帰スキームの抽象化

Origami: (un)folding the abstraction of recursion schemes for program synthesis ( http://arxiv.org/abs/2402.13828v1 )

ライセンス: Link先を確認
Matheus Campos Fernandes, Fabricio Olivetti de Franca, Emilio Francesquini(参考訳) 遺伝的プログラミングを用いたプログラム合成は、通常入力出力の例として提供される入力仕様を満たす正しいプログラムを探索する。 特定の課題はループと再帰を効果的に扱う方法であり、終わらないプログラムを避けることである。 この問題を緩和できる有用な抽象化は、データ生産と消費の組み合わせを一般化する再帰スキームの利用である。 再帰スキームはデータの要約、シーケンスの作成、高度な計算が可能なプログラムの構築を可能にするため、非常に強力である。 Recursion Schemesを使ってプログラムを書く主な利点は、プログラムがよく定義されたテンプレートで構成されており、いくつかの部分だけを合成する必要があることである。 本稿では,テンプレートの折り畳みと折り畳みによるプログラム合成の利点に関する初期研究を行い,予備的な実験結果について概説する。 このアプローチの利点とデメリットを強調するために,再帰スキームを用いてGPSBベンチマーク全体を手作業で解決し,代替実装と比較して進化すべき部分を強調した。 我々は、再帰スキームが選択されると、テンプレートの欠落部分のそれぞれがより単純な関数に還元されるため、合成プロセスが単純化され、さらに独自の入力型と出力型によって制約されることに気付いた。

Program synthesis with Genetic Programming searches for a correct program that satisfies the input specification, which is usually provided as input-output examples. One particular challenge is how to effectively handle loops and recursion avoiding programs that never terminate. A helpful abstraction that can alleviate this problem is the employment of Recursion Schemes that generalize the combination of data production and consumption. Recursion Schemes are very powerful as they allow the construction of programs that can summarize data, create sequences, and perform advanced calculations. The main advantage of writing a program using Recursion Schemes is that the programs are composed of well defined templates with only a few parts that need to be synthesized. In this paper we make an initial study of the benefits of using program synthesis with fold and unfold templates, and outline some preliminary experimental results. To highlight the advantages and disadvantages of this approach, we manually solved the entire GPSB benchmark using recursion schemes, highlighting the parts that should be evolved compared to alternative implementations. We noticed that, once the choice of which recursion scheme is made, the synthesis process can be simplified as each of the missing parts of the template are reduced to simpler functions, which are further constrained by their own input and output types.
翻訳日:2024-02-22 15:08:03 公開日:2024-02-21
# 3次元gaussian splattingの高速レンダリングのためのクラスタリングを用いた不要な3次元gaussianの同定

Identifying Unnecessary 3D Gaussians using Clustering for Fast Rendering of 3D Gaussian Splatting ( http://arxiv.org/abs/2402.13827v1 )

ライセンス: Link先を確認
Joongho Jo, Hyeongwon Kim, and Jongsun Park(参考訳) 3次元ガウススプラッティング(3D-GS)は、速度と画質の両方においてニューラル放射場(NeRF)を上回った新しいレンダリング手法である。 3D-GSは、何百万もの3Dガウシアンを活用して3Dシーンを表現する。 しかし、レンダリングの過程では、現在のビュー方向に対してかなりの数の不要な3dガウスが存在し、その結果、その識別に関連するかなりの計算コストが発生する。 本稿では,画像品質を損なうことなく,リアルタイムに不要な3次元ガウスアンを識別できる計算量削減手法を提案する。 これは、距離が近い3Dガウスのオフラインクラスタリングと、実行中にこれらのクラスタを2Dイメージプレーンに投影することで実現される。 さらに,提案手法がgpu上で実行した場合のボトルネックを分析し,提案手法をシームレスにサポートする効率的なハードウェアアーキテクチャを提案する。 Mip-NeRF360データセットでは、2次元画像投影の前に平均して3次元ガウスの63%を除外し、ピーク信号対雑音比(PSNR)を犠牲にすることなく、全体のレンダリング計算を約38.3%削減する。 提案するアクセラレータは、gpuと比較して10.7倍のスピードアップを実現している。

3D Gaussian splatting (3D-GS) is a new rendering approach that outperforms the neural radiance field (NeRF) in terms of both speed and image quality. 3D-GS represents 3D scenes by utilizing millions of 3D Gaussians and projects these Gaussians onto the 2D image plane for rendering. However, during the rendering process, a substantial number of unnecessary 3D Gaussians exist for the current view direction, resulting in significant computation costs associated with their identification. In this paper, we propose a computational reduction technique that quickly identifies unnecessary 3D Gaussians in real-time for rendering the current view without compromising image quality. This is accomplished through the offline clustering of 3D Gaussians that are close in distance, followed by the projection of these clusters onto a 2D image plane during runtime. Additionally, we analyze the bottleneck associated with the proposed technique when executed on GPUs and propose an efficient hardware architecture that seamlessly supports the proposed scheme. For the Mip-NeRF360 dataset, the proposed technique excludes 63% of 3D Gaussians on average before the 2D image projection, which reduces the overall rendering computation by almost 38.3% without sacrificing peak-signal-to-noise-ratio (PSNR). The proposed accelerator also achieves a speedup of 10.7x compared to a GPU.
翻訳日:2024-02-22 15:07:43 公開日:2024-02-21
# 要求工学における自然言語処理タスクのための大規模言語モデルの利用:体系的ガイドライン

Using Large Language Models for Natural Language Processing Tasks in Requirements Engineering: A Systematic Guideline ( http://arxiv.org/abs/2402.13823v1 )

ライセンス: Link先を確認
Andreas Vogelsang, Jannik Fischbach(参考訳) 大規模言語モデル(LLM)をREにおけるNLP問題にターゲットとして使用するためには,(1)LLMの内部動作に関する基礎知識と(2)NLP4REタスクに対してLLMを選択し,体系的に活用する方法のガイドラインが必要である。 この章は必要な知識を確立し、第一部でLSMの基礎を紹介します。 第2部では, 学生, 研究者, 実践者を対象に, LLMの使用に関する詳細なガイドラインを提示する。

To use Large Language Models (LLMs) in a targeted way for NLP problems in RE, we require both (1) basic knowledge about the inner workings of LLMs and (2) a guideline on how to select and systematically utilize or repurpose LLMs for NLP4RE tasks. This chapter establishes the required knowledge and introduces the fundamentals of LLMs in the first part. In the second part, we present a detailed guideline for students, researchers, and practitioners on using LLMs for their purposes.
翻訳日:2024-02-22 15:07:16 公開日:2024-02-21
# mstar: 時系列分類のためのマルチスケールバックボーンアーキテクチャ探索

MSTAR: Multi-Scale Backbone Architecture Search for Timeseries Classification ( http://arxiv.org/abs/2402.13822v1 )

ライセンス: Link先を確認
Tue M. Cao, Nhat H. Tran, Hieu H. Pham, Hung T. Nguyen, and Le P. Nguyen(参考訳) 時系列分類(tsc)に対する以前のアプローチのほとんどは、時間分解能を見落としながら受容場と周波数の重要性を強調している。 したがって、幅広い受容フィールドを分類モデルに統合することで、避けられないスケーラビリティの問題に苦しめられた。 他の方法は、大規模なデータセットに対する適応性は向上しているが、手動設計が必要であり、各データセットの独自性のために最適なアーキテクチャに到達できない。 これらの課題を克服するために,新しいマルチスケール探索空間とニューラルネットワーク探索フレームワーク(nas)を提案し,周波数問題と時間分解問題の両方に対処し,特定のデータセットに適したスケールを探索する。 さらに,本モデルは,未訓練重量と事前訓練重量の両方を有する強力なトランスフォーマーモジュールを採用するためのバックボーンとして機能することを示す。 私たちの検索空間は、4つの異なるドメインの4つのデータセットで最先端のパフォーマンスに達し、各データに10以上の高度に調整されたモデルを導入しています。

Most of the previous approaches to Time Series Classification (TSC) highlight the significance of receptive fields and frequencies while overlooking the time resolution. Hence, unavoidably suffered from scalability issues as they integrated an extensive range of receptive fields into classification models. Other methods, while having a better adaptation for large datasets, require manual design and yet not being able to reach the optimal architecture due to the uniqueness of each dataset. We overcome these challenges by proposing a novel multi-scale search space and a framework for Neural architecture search (NAS), which addresses both the problem of frequency and time resolution, discovering the suitable scale for a specific dataset. We further show that our model can serve as a backbone to employ a powerful Transformer module with both untrained and pre-trained weights. Our search space reaches the state-of-the-art performance on four datasets on four different domains while introducing more than ten highly fine-tuned models for each data.
翻訳日:2024-02-22 15:07:06 公開日:2024-02-21
# リプシッツ構成可能なマルコフ決定過程の性能改善限界

Performance Improvement Bounds for Lipschitz Configurable Markov Decision Processes ( http://arxiv.org/abs/2402.13821v1 )

ライセンス: Link先を確認
Alberto Maria Metelli(参考訳) 構成可能なマルコフ決定プロセス(Conf-MDPs)は、最近、伝統的なマルコフ決定プロセス(MDPs)の拡張として導入され、いくつかのパラメータを設定するために環境に介入する可能性がある現実のシナリオをモデル化している。 本稿では、正規性条件を満たすConf-MDPの特定のサブクラス、すなわちリプシッツ連続性に焦点を当てる。 まず、方針変更と構成変更によって引き起こされる、$\gamma$-discounted stationary distribution間のwasserstein距離の境界を提供することから始める。 この結果は、Conf-MDPと従来のMDPの両方の既存の境界を一般化する。 そして,新しい性能改善を低域で導出する。

Configurable Markov Decision Processes (Conf-MDPs) have recently been introduced as an extension of the traditional Markov Decision Processes (MDPs) to model the real-world scenarios in which there is the possibility to intervene in the environment in order to configure some of its parameters. In this paper, we focus on a particular subclass of Conf-MDP that satisfies regularity conditions, namely Lipschitz continuity. We start by providing a bound on the Wasserstein distance between $\gamma$-discounted stationary distributions induced by changing policy and configuration. This result generalizes the already existing bounds both for Conf-MDPs and traditional MDPs. Then, we derive a novel performance improvement lower bound.
翻訳日:2024-02-22 15:06:50 公開日:2024-02-21
# FLD:構造的動き表現と学習のためのフーリエ潜時ダイナミクス

FLD: Fourier Latent Dynamics for Structured Motion Representation and Learning ( http://arxiv.org/abs/2402.13820v1 )

ライセンス: Link先を確認
Chenhao Li, Elijah Stanger-Jones, Steve Heim, Sangbae Kim(参考訳) 運動軌跡は、物理に基づく運動学習の信頼できる参照を提供するが、特に十分なデータカバレッジが欠如している地域では、疎遠に悩まされている。 この課題に対処するために,周期的あるいは準周期的動作における空間-時間的関係を抽出する自己教師あり構造化表現と生成手法を提案する。 連続的にパラメータ化された潜在空間における動きのダイナミクスは、動き学習アルゴリズムの補間と一般化能力を高めることができる。 モーションパラメータ化によって通知されるモーション学習コントローラは、トレーニング中に見えないターゲットを含む幅広い動作のオンライントラッキングを実行する。 フォールバック機構により、コントローラはトラッキング戦略を動的に適応させ、潜在的に危険なターゲットが提案された場合に自動的に安全なアクション実行を行う。 認識された空間-時間構造を活用することで,一般運動表現と学習アルゴリズムの今後の進歩への新たな可能性を開く。

Motion trajectories offer reliable references for physics-based motion learning but suffer from sparsity, particularly in regions that lack sufficient data coverage. To address this challenge, we introduce a self-supervised, structured representation and generation method that extracts spatial-temporal relationships in periodic or quasi-periodic motions. The motion dynamics in a continuously parameterized latent space enable our method to enhance the interpolation and generalization capabilities of motion learning algorithms. The motion learning controller, informed by the motion parameterization, operates online tracking of a wide range of motions, including targets unseen during training. With a fallback mechanism, the controller dynamically adapts its tracking strategy and automatically resorts to safe action execution when a potentially risky target is proposed. By leveraging the identified spatial-temporal structure, our work opens new possibilities for future advancements in general motion representation and learning algorithms.
翻訳日:2024-02-22 15:06:39 公開日:2024-02-21
# ヘイトスピーチを超えて:NLPの非人間化言語発見への挑戦と機会

Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering Dehumanizing Language ( http://arxiv.org/abs/2402.13818v1 )

ライセンス: Link先を確認
Hezhao Zhang, Lasana Harris, Nafise Sadat Moosavi(参考訳) ヘイトスピーチの微妙で有害な表現として特徴づけられる非人間化は、人格の個人を否定し、しばしば辺境的な集団に対する暴力を引き起こす。 様々なドメインにわたる自然言語処理の大幅な進歩にもかかわらず、非人間化言語の検出への応用は限定的である。 本稿では, GPT-4, GPT-3.5, LLAMA-2を含む最先端NLPモデルの性能評価を行った。 以上の結果から,これらのモデルが潜在的な可能性を示し,より広義のヘイトスピーチと非人間化言語を区別する精度が70%に達する一方で,バイアスも現れることがわかった。 彼らは、他のヘイトスピーチを標的グループの特定のサブセットの非人間化として分類することに過敏であり、一方、他のターゲットグループの非人間化の明確なケースを特定できないことが多い。 さらに、最高のパフォーマンスモデルのひとつを活用して、よりアクセスしやすいモデルをトレーニングするための大きなデータセットを自動的に注釈付けしました。 しかし,本研究の結果から,この課題に必要な高品質なデータ生成しきい値を現在満たしていないことが判明した。

Dehumanization, characterized as a subtle yet harmful manifestation of hate speech, involves denying individuals of their human qualities and often results in violence against marginalized groups. Despite significant progress in Natural Language Processing across various domains, its application in detecting dehumanizing language is limited, largely due to the scarcity of publicly available annotated data for this domain. This paper evaluates the performance of cutting-edge NLP models, including GPT-4, GPT-3.5, and LLAMA-2, in identifying dehumanizing language. Our findings reveal that while these models demonstrate potential, achieving a 70\% accuracy rate in distinguishing dehumanizing language from broader hate speech, they also display biases. They are over-sensitive in classifying other forms of hate speech as dehumanization for a specific subset of target groups, while more frequently failing to identify clear cases of dehumanization for other target groups. Moreover, leveraging one of the best-performing models, we automatically annotated a larger dataset for training more accessible models. However, our findings indicate that these models currently do not meet the high-quality data generation threshold necessary for this task.
翻訳日:2024-02-22 15:06:24 公開日:2024-02-21
# 非局所パラメトリックな画像復調手法の統一的枠組み

A unified framework of non-local parametric methods for image denoising ( http://arxiv.org/abs/2402.13816v1 )

ライセンス: Link先を確認
S\'ebastien Herbreteau and Charles Kervrann(参考訳) そこで本研究では,BM3Dが最も一般的な代表者であり,その類似性に応じてノイズの多いパッチをまとめて協調的に処理する,局所的でない単一像認識手法の統一的な視点を提案する。 提案手法は,2段階に近似した二次リスクの最小化を基本とし,光子および電子ノイズに適用する。 第1段階の非バイアスリスク推定(URE)と第2段階の深層学習理論から借用された概念である'内部適応'に基づいて、我々のアプローチは従来の最先端の非局所的手法を再解釈し、解釈することができることを示す。 本研究では,パッチの線形結合を利用したNL-Ridgeという新しいデノイザを提案する。 概念的には単純であるが,NL-Ridge は最先端の単一画像デノイザよりも優れていることを示す。

We propose a unified view of non-local methods for single-image denoising, for which BM3D is the most popular representative, that operate by gathering noisy patches together according to their similarities in order to process them collaboratively. Our general estimation framework is based on the minimization of the quadratic risk, which is approximated in two steps, and adapts to photon and electronic noises. Relying on unbiased risk estimation (URE) for the first step and on ``internal adaptation'', a concept borrowed from deep learning theory, for the second, we show that our approach enables to reinterpret and reconcile previous state-of-the-art non-local methods. Within this framework, we propose a novel denoiser called NL-Ridge that exploits linear combinations of patches. While conceptually simpler, we show that NL-Ridge can outperform well-established state-of-the-art single-image denoisers.
翻訳日:2024-02-22 15:06:02 公開日:2024-02-21
# Oculus VRアプリケーションに関する実証的研究:セキュリティとプライバシの観点から

An Empirical Study on Oculus Virtual Reality Applications: Security and Privacy Perspectives ( http://arxiv.org/abs/2402.13815v1 )

ライセンス: Link先を確認
Hanyang Guo, Hong-Ning Dai, Xiapu Luo, Zibin Zheng, Gengyang Xu, Fengliang He(参考訳) VR(Virtual Reality)は、新興メタバースアプリケーションで広く採用されているが、基本的に新しい技術ではない。 一方、ほとんどのVRオペレーティングシステム(OS)は、既製のモバイルOSをベースとしている。 結果として、VRアプリは従来のモバイルアプリからプライバシーとセキュリティの欠陥を継承する。 一方、従来のモバイルアプリとは対照的に、VRアプリはヘッドマウントディスプレイ、ボディセンサー、コントローラーなどの多様なVRデバイスを通じて没入感のある体験を実現することができる。 さらに、VRアプリは一般的に3Dゲームエンジン(Unityなど)によって実装されており、固有のセキュリティ脆弱性も含んでいる。 これらのテクノロジの不適切な使用は、プライバシーのリークやセキュリティ上の脆弱性を引き起こす可能性があるが、これらの問題は、多様なvrアプリの増殖と比べて大きな注目を集めていない。 本稿では,vrアプリのセキュリティおよびプライバシー評価ツールであるvr-sp detectorを開発した。 VR-SP検出器はプログラム静的解析ツールとプライバシ・ポリティ分析手法を統合している。 筆者らはVR-SP検出器を用いて,500種類のVRアプリに関する総合的研究を行った。 私たちは、人気のOculusおよびSideQuestアプリストアからオリジナルのアプリを取得し、Meta Oculus Quest 2デバイスを介してAPKファイルを抽出します。 われわれは、vrアプリのセキュリティ脆弱性とプライバシーデータの漏洩を、vrアプリ分析、taint分析、プライバシーポリシー分析によって評価する。 VRアプリには、セキュリティ上の脆弱性やプライバシリークが数多く存在していることが分かりました。 さらに,本研究の結果は,これらのアプリのプライバシポリシにおける矛盾する表現や,実際のデータ収集とアプリのプライバシポリシステートメントとの矛盾も明らかにした。 これらの知見に基づき、vrアプリの将来の開発について提案する。

Although Virtual Reality (VR) has accelerated its prevalent adoption in emerging metaverse applications, it is not a fundamentally new technology. On one hand, most VR operating systems (OS) are based on off-the-shelf mobile OS. As a result, VR apps also inherit privacy and security deficiencies from conventional mobile apps. On the other hand, in contrast to conventional mobile apps, VR apps can achieve immersive experience via diverse VR devices, such as head-mounted displays, body sensors, and controllers though achieving this requires the extensive collection of privacy-sensitive human biometrics. Moreover, VR apps have been typically implemented by 3D gaming engines (e.g., Unity), which also contain intrinsic security vulnerabilities. Inappropriate use of these technologies may incur privacy leaks and security vulnerabilities although these issues have not received significant attention compared to the proliferation of diverse VR apps. In this paper, we develop a security and privacy assessment tool, namely the VR-SP detector for VR apps. The VR-SP detector has integrated program static analysis tools and privacy-policy analysis methods. Using the VR-SP detector, we conduct a comprehensive empirical study on 500 popular VR apps. We obtain the original apps from the popular Oculus and SideQuest app stores and extract APK files via the Meta Oculus Quest 2 device. We evaluate security vulnerabilities and privacy data leaks of these VR apps by VR app analysis, taint analysis, and privacy-policy analysis. We find that a number of security vulnerabilities and privacy leaks widely exist in VR apps. Moreover, our results also reveal conflicting representations in the privacy policies of these apps and inconsistencies of the actual data collection with the privacy-policy statements of the apps. Based on these findings, we make suggestions for the future development of VR apps.
翻訳日:2024-02-22 15:05:47 公開日:2024-02-21
# 超解像深度マップのためのシーン事前フィルタリング

Scene Prior Filtering for Depth Map Super-Resolution ( http://arxiv.org/abs/2402.13876v1 )

ライセンス: Link先を確認
Zhengxue Wang and Zhiqiang Yan and Ming-Hsuan Yang and Jinshan Pan and Jian Yang and Ying Tai and Guangwei Gao(参考訳) マルチモーダル融合は深度画像の超高解像度化の成功に不可欠である。 しかし、加法や連結といった一般的な融合戦略は、モーダルギャップを効果的に埋めるには不十分である。 その結果,この問題を軽減するため,ガイド画像フィルタリング手法が導入された。 それにもかかわらず、それらのフィルタカーネルは通常、重要なテクスチャ干渉とエッジ不正確さに遭遇する。 これら2つの課題に対処すべく,大規模モデルからの事前面正規化と意味マップを利用したシーン優先フィルタリングネットワークspfnetを導入する。 具体的には,マルチモーダルシーンプリミティブ, \textit{i.e}, rgb, normal, semantic, and depth間の類似性を計算し,テクスチャ干渉を低減した,オールインワン事前伝搬を設計する。 さらに,Multual Guided Filtering を用いて,各単一モードの先行を連続的に奥行きに埋め込む1対1のプリエンベディングを提案し,エッジを拡大しながらテクスチャ干渉を緩和する。 我々のSPFNetは、実データと合成データの両方で広く評価され、最先端のパフォーマンスを実現しています。

Multi-modal fusion is vital to the success of super-resolution of depth images. However, commonly used fusion strategies, such as addition and concatenation, fall short of effectively bridging the modal gap. As a result, guided image filtering methods have been introduced to mitigate this issue. Nevertheless, it is observed that their filter kernels usually encounter significant texture interference and edge inaccuracy. To tackle these two challenges, we introduce a Scene Prior Filtering network, SPFNet, which utilizes the priors surface normal and semantic map from large-scale models. Specifically, we design an All-in-one Prior Propagation that computes the similarity between multi-modal scene priors, \textit{i.e.}, RGB, normal, semantic, and depth, to reduce the texture interference. In addition, we present a One-to-one Prior Embedding that continuously embeds each single-modal prior into depth using Mutual Guided Filtering, further alleviating the texture interference while enhancing edges. Our SPFNet has been extensively evaluated on both real and synthetic datasets, achieving state-of-the-art performance.
翻訳日:2024-02-22 14:56:09 公開日:2024-02-21
# $\textt{Se}^2$: $\textit{Se}$quential Example $\textit{Se}$lection for In-Context Learning

$\texttt{Se}^2$: $\textit{Se}$quential Example $\textit{Se}$lection for In-Context Learning ( http://arxiv.org/abs/2402.13874v1 )

ライセンス: Link先を確認
Haoyu Liu, Jianfeng Liu, Shaohan Huang, Yuefeng Zhan, Hao Sun, Weiwei Deng, Furu Wei, Qi Zhang(参考訳) インコンテキスト学習(ICL)のための大規模言語モデル(LLM)の顕著な能力は、実演例によって活性化される必要がある。 以前の研究はICLの例の選択を幅広く検討しており、主に「選択して整理する」パラダイムに従っており、そのようなアプローチは例間の内部的関係を無視し、トレーニングと推論の間に矛盾が存在することが多い。 本稿では、この問題を$\textit{se}$quential $\textit{se}$lection問題として定式化し、LLMの様々な文脈に対するフィードバックを活用するシーケンシャル・アウェア法である$\textt{Se}^2$を導入し、実例間の相互関係とシーケンシャルな情報を取得するのに役立ち、ICLプロンプトのコンテキスト性と関連性を著しく高める。 一方,ビーム探索を用いてサンプル配列の探索と構築を行い,品質と多様性の両立を図る。 8つのカテゴリの23のnlpタスクにわたる広範囲な実験は、$\textt{se}^2$が競合ベースラインを著しく上回り、ランダム選択よりも42%の相対的な改善を達成していることを示している。 さらに詳細な分析を行い、様々なシナリオにおける$\texttt{se}^2$の例外的な安定性と適応性を強調しながら、提案された戦略の有効性を示す。 私たちのコードは将来の研究を促進するためにリリースされます。

The remarkable capability of large language models (LLMs) for in-context learning (ICL) needs to be activated by demonstration examples. Prior work has extensively explored the selection of examples for ICL, predominantly following the "select then organize" paradigm, such approaches often neglect the internal relationships between examples and exist an inconsistency between the training and inference. In this paper, we formulate the problem as a $\textit{se}$quential $\textit{se}$lection problem and introduce $\texttt{Se}^2$, a sequential-aware method that leverages the LLM's feedback on varying context, aiding in capturing inter-relationships and sequential information among examples, significantly enriching the contextuality and relevance of ICL prompts. Meanwhile, we utilize beam search to seek and construct example sequences, enhancing both quality and diversity. Extensive experiments across 23 NLP tasks from 8 distinct categories illustrate that $\texttt{Se}^2$ markedly surpasses competitive baselines and achieves 42% relative improvement over random selection. Further in-depth analysis show the effectiveness of proposed strategies, highlighting $\texttt{Se}^2$'s exceptional stability and adaptability across various scenarios. Our code will be released to facilitate future research.
翻訳日:2024-02-22 14:55:47 公開日:2024-02-21
# 双極子量子多体スピン系における時間反転

Time-reversal in a dipolar quantum many-body spin system ( http://arxiv.org/abs/2402.13873v1 )

ライセンス: Link先を確認
Sebastian Geier, Adrian Braemer, Eduard Braun, Maximilian M\"ullenbach, Titus Franz, Martin G\"arttner, Gerhard Z\"urn, Matthias Weidem\"uller(参考訳) マクロシステムにおける時間反転は日々の経験と矛盾する。 破砕したコップを元の状態に戻すのは、破砕に繋がった微視的なダイナミクスを逆転させるだけでは事実上不可能です。 しかし、現代の量子技術によって提供される正確な制御能力により、量子システムのユニタリ進化は時間とともに逆転することができる。 本稿では,原子ガス中のrydberg状態によって表される双極子相互作用を持つ孤立多体スピン系において,時間反転プロトコルを実装した。 スピンをコードする状態を変更することで、相互作用ハミルトニアンの符号を反転させ、消磁多体状態が磁化状態へと逆回転させることで磁化の緩和ダイナミクスの反転を示す。 我々はLoschmidtエコーの概念を用いて原子運動の役割を解明する。 最後に、Floquetエンジニアリングとアプローチを組み合わせることで、異なる対称性を持つスピンモデルの大きな族に対する時間反転を示す。 我々の状態伝達法は、幅広い量子シミュレーションプラットフォームに適用でき、量子多体物理学をはるかに超越し、量子強調センシングから量子情報スクランブルまで応用できる。

Time reversal in a macroscopic system is contradicting daily experience. It is practically impossible to restore a shattered cup to its original state by just time reversing the microscopic dynamics that led to its breakage. Yet, with the precise control capabilities provided by modern quantum technology, the unitary evolution of a quantum system can be reversed in time. Here, we implement a time-reversal protocol in a dipolar interacting, isolated many-body spin system represented by Rydberg states in an atomic gas. By changing the states encoding the spin, we flip the sign of the interaction Hamiltonian, and demonstrate the reversal of the relaxation dynamics of the magnetization by letting a demagnetized many-body state evolve back-in-time into a magnetized state. We elucidate the role of atomic motion using the concept of a Loschmidt echo. Finally, by combining the approach with Floquet engineering, we demonstrate time reversal for a large family of spin models with different symmetries. Our method of state transfer is applicable across a wide range of quantum simulation platforms and has applications far beyond quantum many-body physics, reaching from quantum-enhanced sensing to quantum information scrambling.
翻訳日:2024-02-22 14:55:16 公開日:2024-02-21
# フィッシングメール検出のための説明可能なトランスフォーマーモデル--大規模言語モデルアプローチ

An Explainable Transformer-based Model for Phishing Email Detection: A Large Language Model Approach ( http://arxiv.org/abs/2402.13871v1 )

ライセンス: Link先を確認
Mohammad Amaz Uddin and Iqbal H. Sarker(参考訳) フィッシングメール(英: phishing email)は、個人情報を盗んだり、経済的危害を及ぼす目的で偽のメールを送ることで、ユーザーを欺こうとする深刻なサイバー脅威である。 攻撃者は、しばしば信頼に値する存在のふりをし、技術の進歩と洗練を生かしてフィッシングの検出と防止をより困難にする。 大規模な学術研究にもかかわらず、フィッシング検出はサイバーセキュリティの分野で今も進行中で恐ろしい課題である。 LLM(Large Language Models)とMLM(Masked Language Models)は、長年の課題に対処する革新的なソリューションを提供する大きな可能性を秘めている。 本研究では,フィッシングメールの検出に最適化された微調整変換器を用いた DistilBERT モデルを提案する。 検出プロセスでは,フィッシングメールデータセットを用いて,事前処理技術を用いて不均衡クラスの問題をクリーンかつ解決する。 実験の結果,本モデルは高い精度を効果的に達成し,その性能を実証できることが判明した。 最後に,ローカル解釈可能なモデル非依存説明 (lime) やトランスフォーマー解釈 (transformer interpret) といったxai技術を用いて,フィッシングメールのテキスト分類の文脈において,モデルがどのように予測を行うかを説明する。

Phishing email is a serious cyber threat that tries to deceive users by sending false emails with the intention of stealing confidential information or causing financial harm. Attackers, often posing as trustworthy entities, exploit technological advancements and sophistication to make detection and prevention of phishing more challenging. Despite extensive academic research, phishing detection remains an ongoing and formidable challenge in the cybersecurity landscape. Large Language Models (LLMs) and Masked Language Models (MLMs) possess immense potential to offer innovative solutions to address long-standing challenges. In this research paper, we present an optimized, fine-tuned transformer-based DistilBERT model designed for the detection of phishing emails. In the detection process, we work with a phishing email dataset and utilize the preprocessing techniques to clean and solve the imbalance class issues. Through our experiments, we found that our model effectively achieves high accuracy, demonstrating its capability to perform well. Finally, we demonstrate our fine-tuned model using Explainable-AI (XAI) techniques such as Local Interpretable Model-Agnostic Explanations (LIME) and Transformer Interpret to explain how our model makes predictions in the context of text classification for phishing emails.
翻訳日:2024-02-22 14:54:58 公開日:2024-02-21
# グリッド運用における確率的時系列予測と応用

Generative Probabilistic Time Series Forecasting and Applications in Grid Operations ( http://arxiv.org/abs/2402.13870v1 )

ライセンス: Link先を確認
Xinyi Wang, Lang Tong, Qing Zhao(参考訳) 生成確率予測は過去の時系列観測で与えられた条件付き確率分布に基づいて将来の時系列サンプルを生成する。 このような技術は、電力価格予測、リスクベースの経済派遣、確率的最適化など、グリッド運用における広範な適用に不確実なリスクベースの意思決定と計画に不可欠である。 Wiener と Kallianpur のイノベーション表現に触発されて,非パラメトリック定常時系列から独立かつ同一に分散されたイノベーションシーケンスを抽出する,弱いイノベーションオートエンコーダアーキテクチャと学習アルゴリズムを提案する。 弱いイノベーションシーケンスはベイズ的であり、弱イノベーションオートエンコーダが生成確率予測のための標準アーキテクチャとなることを示す。 提案手法は,高揮発性リアルタイム電力価格の予測に応用され,先進確率および点予測技術よりも複数の予測手法において優れた性能を示す。

Generative probabilistic forecasting produces future time series samples according to the conditional probability distribution given past time series observations. Such techniques are essential in risk-based decision-making and planning under uncertainty with broad applications in grid operations, including electricity price forecasting, risk-based economic dispatch, and stochastic optimizations. Inspired by Wiener and Kallianpur's innovation representation, we propose a weak innovation autoencoder architecture and a learning algorithm to extract independent and identically distributed innovation sequences from nonparametric stationary time series. We show that the weak innovation sequence is Bayesian sufficient, which makes the proposed weak innovation autoencoder a canonical architecture for generative probabilistic forecasting. The proposed technique is applied to forecasting highly volatile real-time electricity prices, demonstrating superior performance across multiple forecasting measures over leading probabilistic and point forecasting techniques.
翻訳日:2024-02-22 14:54:31 公開日:2024-02-21
# クアイジ:中国初の会計大言語モデル

Kuaiji: the First Chinese Accounting Large Language Model ( http://arxiv.org/abs/2402.13866v1 )

ライセンス: Link先を確認
Jiayuan Luo, Songhua Yang, Xiaoling Qiu, Panyu Chen, Yufei Nai, Wenxuan Zeng, Wentao Zhang, Xinke Jiang(参考訳) ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、自然言語の理解と生成に優れた能力を示している。 しかし、会計などの専門分野に適応するにあたっては困難に遭遇する。 この課題に対処するため,我々は,会計用大規模言語モデルであるkuaijiを紹介する。 Kuaijiは、連続的な事前トレーニングと監督された微調整プロセスを含むBaichuanフレームワークを使用して、慎重に微調整されている。 CAtAcctQA(英語版)によってサポートされている、大きな真の会計士とクライアントの対話を含むデータセットは、例外的な精度と応答速度を示す。 当社の貢献は,中国初の会計データセットの作成,中国の主要な会計llmとしてのkuaijiの確立,実世界の会計シナリオによる有効性の検証などに関するものです。

Large Language Models (LLMs) like ChatGPT and GPT-4 have demonstrated impressive proficiency in comprehending and generating natural language. However, they encounter difficulties when tasked with adapting to specialized domains such as accounting. To address this challenge, we introduce Kuaiji, a tailored Accounting Large Language Model. Kuaiji is meticulously fine-tuned using the Baichuan framework, which encompasses continuous pre-training and supervised fine-tuning processes. Supported by CAtAcctQA, a dataset containing large genuine accountant-client dialogues, Kuaiji exhibits exceptional accuracy and response speed. Our contributions encompass the creation of the first Chinese accounting dataset, the establishment of Kuaiji as a leading open-source Chinese accounting LLM, and the validation of its efficacy through real-world accounting scenarios.
翻訳日:2024-02-22 14:54:16 公開日:2024-02-21
# 局所演算を持つ量子回路をフォールトトレラントに実現する方法

How to fault-tolerantly realize any quantum circuit with local operations ( http://arxiv.org/abs/2402.13863v1 )

ライセンス: Link先を確認
Shin Ho Choe and Robert Koenig(参考訳) 幾何学的局所量子演算と効率的な古典計算により、任意の量子ビット対間のゲートを含む一般量子回路を実現する方法を示す。 回路レベルの局所確率ノイズモデリング 導出スキームの不完全実装は、元の回路の局所確率ノイズと同値であることが証明される。 量子回路の深さの一定要素増加と量子ビット数の多項式オーバーヘッド:$n$ qubits上で任意の量子回路を実行するために、$O(n^{3/2} \log^3n)$ qubitsを含む3次元量子フォールトトレランスアーキテクチャと$O(n^2 \log^3n)$ qubitsを用いた準2Dアーキテクチャを与える。 最近のフォールトトレランス構成に適用すると、局所演算を伴う普遍量子計算に対するフォールトトレランス閾値定理、多項式量子ビットオーバーヘッド、準多対数深さオーバーヘッドが与えられる。 より一般に、我々の変換は、フォールトトレラント量子情報処理のためのスキームを設計する際にオペレーションの局所性を考慮する必要性を伴います。

We show how to realize a general quantum circuit involving gates between arbitrary pairs of qubits by means of geometrically local quantum operations and efficient classical computation. We prove that circuit-level local stochastic noise modeling an imperfect implementation of our derived schemes is equivalent to local stochastic noise in the original circuit. Our constructions incur a constant-factor increase in the quantum circuit depth and a polynomial overhead in the number of qubits: To execute an arbitrary quantum circuit on $n$ qubits, we give a 3D quantum fault-tolerance architecture involving $O(n^{3/2} \log^3 n)$ qubits, and a quasi-2D architecture using $O(n^2 \log^3 n)$ qubits. Applied to recent fault-tolerance constructions, this gives a fault-tolerance threshold theorem for universal quantum computations with local operations, a polynomial qubit overhead and a quasi-polylogarithmic depth overhead. More generally, our transformation dispenses with the need for considering the locality of operations when designing schemes for fault-tolerant quantum information processing.
翻訳日:2024-02-22 14:54:03 公開日:2024-02-21
# 不確実性伝播を用いた入射ニューラル表現におけるイソ表面抽出の効率向上

Improving Efficiency of Iso-Surface Extraction on Implicit Neural Representations Using Uncertainty Propagation ( http://arxiv.org/abs/2402.13861v1 )

ライセンス: Link先を確認
Haoyu Li and Han-Wei Shen(参考訳) 暗黙的神経表現(inrs)は、空間的位置をデータ値にマッピングする関数をモデル化することで科学的データ削減と可視化に広く使われている。 数値の空間分布に関する事前の知識がなければ、INRから高密度にサンプルを採取し、計算コストのかかる等表面抽出のような可視化タスクを行なわざるを得ない。 近年,ネットワークの出力範囲を空間領域内に限定する算術規則を用いて,3次元幾何学のinrs上でのレイキャスティングや階層メッシュ抽出などの幾何学的クエリの効率向上に有望な結果が得られている。 しかし、解析限界はしばしば複雑な科学データには保守的すぎる。 本稿では,算術規則を再検討し,空間領域内のネットワーク出力の確率分布を解析することにより,範囲解析のための改良手法を提案する。 この分布を中央極限定理を適用してガウス分布として効率的にモデル化する。 低確率値を除くと出力境界を狭めることができ、その結果、より正確な値範囲の推定が可能になり、より正確なiso-surfaceセルの同定とinrsでのより効率的なiso-surface抽出が可能になる。 提案手法は,従来の範囲解析法と比較して4つのデータセットの等表面抽出時間において優れた性能を示し,他の幾何的クエリタスクにも一般化可能である。

Implicit Neural representations (INRs) are widely used for scientific data reduction and visualization by modeling the function that maps a spatial location to a data value. Without any prior knowledge about the spatial distribution of values, we are forced to sample densely from INRs to perform visualization tasks like iso-surface extraction which can be very computationally expensive. Recently, range analysis has shown promising results in improving the efficiency of geometric queries, such as ray casting and hierarchical mesh extraction, on INRs for 3D geometries by using arithmetic rules to bound the output range of the network within a spatial region. However, the analysis bounds are often too conservative for complex scientific data. In this paper, we present an improved technique for range analysis by revisiting the arithmetic rules and analyzing the probability distribution of the network output within a spatial region. We model this distribution efficiently as a Gaussian distribution by applying the central limit theorem. Excluding low probability values, we are able to tighten the output bounds, resulting in a more accurate estimation of the value range, and hence more accurate identification of iso-surface cells and more efficient iso-surface extraction on INRs. Our approach demonstrates superior performance in terms of the iso-surface extraction time on four datasets compared to the original range analysis method and can also be generalized to other geometric query tasks.
翻訳日:2024-02-22 14:53:41 公開日:2024-02-21
# 大きなマージン半空間のレプリカブル学習

Replicable Learning of Large-Margin Halfspaces ( http://arxiv.org/abs/2402.13857v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Amin Karbasi, Kasper Green Larsen, Grigoris Velegkas, Felix Zhou(参考訳) 我々は,大規模な半空間を学習する問題に対して,効率的な複製アルゴリズムを提供する。 その結果,Impagliazzo,Lei,Pitassi,Sorrell[STOC,2022]のアルゴリズムが改良された。 我々は,多項式時間で動作し,固有であり,Impagliazzoらによって達成された手法と比較して,標本の複雑さを厳密に改善した最初の次元独立レプリカブルアルゴリズムを設計する。 [2022]すべての関連するパラメータについて。 さらに、我々の最初のアルゴリズムは、精度パラメータ$\epsilon$に対して最適なサンプル複雑性を持つ。 また、SGDに基づくレプリカブルアルゴリズムを設計し、いくつかのパラメータのレギュレーションにおいて、最初のアルゴリズムよりもサンプリングと時間の複雑さが向上する。 多項式時間アルゴリズムの要求とは別に、Bun, Gaboardi, Hopkins, Impagliazzo, Lei, Pitassi, Sorrell, and Sivakumar [STOC, 2023] のDP-to-Replicability reduction を用いて、差分パラメータ$\tau$に対してサンプル複雑性を改善した大マージンハーフスペースに対するレプリカブルアルゴリズムを得る方法を示す。 次に,従来の3つのアルゴリズムのすべてに比較して,1/\tau^{2}$で実行時間を指数関数的に改善したアルゴリズムを設計する。

We provide efficient replicable algorithms for the problem of learning large-margin halfspaces. Our results improve upon the algorithms provided by Impagliazzo, Lei, Pitassi, and Sorrell [STOC, 2022]. We design the first dimension-independent replicable algorithms for this task which runs in polynomial time, is proper, and has strictly improved sample complexity compared to the one achieved by Impagliazzo et al. [2022] with respect to all the relevant parameters. Moreover, our first algorithm has sample complexity that is optimal with respect to the accuracy parameter $\epsilon$. We also design an SGD-based replicable algorithm that, in some parameters' regimes, achieves better sample and time complexity than our first algorithm. Departing from the requirement of polynomial time algorithms, using the DP-to-Replicability reduction of Bun, Gaboardi, Hopkins, Impagliazzo, Lei, Pitassi, Sorrell, and Sivakumar [STOC, 2023], we show how to obtain a replicable algorithm for large-margin halfspaces with improved sample complexity with respect to the margin parameter $\tau$, but running time doubly exponential in $1/\tau^2$ and worse sample complexity dependence on $\epsilon$ than one of our previous algorithms. We then design an improved algorithm with better sample complexity than all three of our previous algorithms and running time exponential in $1/\tau^{2}$.
翻訳日:2024-02-22 14:53:17 公開日:2024-02-21
# TikTokがResearch APIで学んだこと

What we can learn from TikTok through its Research API ( http://arxiv.org/abs/2402.13855v1 )

ライセンス: Link先を確認
Francesco Corso, Francesco Pierri, Gianmarco De Francisci Morales(参考訳) TikTokはソーシャルメディアプラットフォームで、近年、特に若年層で人気が高まっている。 最近リリースされた無料のResearch APIは、投稿されたビデオ、関連コメント、ユーザーアクティビティのデータを集めるためのドアを開く。 本研究は,TikTokビデオのランダムなサンプルを6年間にわたって収集し,分析することにより,Research APIが返す結果の信頼性を評価することに焦点を当てた。 我々の予備的な成果は、ビデオの地理的分布と、ウイルスハッシュタグの世界的な普及に注意を払って、プラットフォームの研究を目的とした将来の研究に役立つ。

TikTok is a social media platform that has gained immense popularity over the last few years, particularly among younger demographics, due to the viral trends and challenges shared worldwide. The recent release of a free Research API opens doors to collect data on posted videos, associated comments, and user activities. Our study focuses on evaluating the reliability of results returned by the Research API, by collecting and analyzing a random sample of TikTok videos posted in a span of 6 years. Our preliminary results are instrumental for future research that aims to study the platform, highlighting caveats on the geographical distribution of videos and on the global prevalence of viral hashtags.
翻訳日:2024-02-22 14:52:45 公開日:2024-02-21
# RealDex:ロボットデクスタースハンドのための人型グラスピングを目指して

RealDex: Towards Human-like Grasping for Robotic Dexterous Hand ( http://arxiv.org/abs/2402.13853v1 )

ライセンス: Link先を確認
Yumeng Liu, Yaxun Yang, Youzhuo Wang, Xiaofei Wu, Jiamin Wang, Yichen Yao, S\"oren Schwertfeger, Sibei Yang, Wenping Wang, Jingyi Yu, Xuming He, Yuexin Ma(参考訳) 本稿では,マルチビューとマルチモーダル視覚データに富んだ,人間の行動パターンに融合した真正のデクタラスハンド把持動作を捉えた,先駆的なデータセットであるrealdexを提案する。 遠隔操作システムを利用して,人間とロボットのハンドポーズをリアルタイムでシームレスに同期する。 この人間の動きの収集は、人間の動きをより自然に正確に模倣するために、器用な手の訓練に不可欠である。 realdexは、現実のシナリオにおける自動認識、認識、操作のためのヒューマノイドロボットの進歩において、大きな可能性を秘めている。 さらに,マルチモーダル大規模言語モデルを有効に活用することにより,人間の経験と整合し,実世界の適用性を向上する,最先端のデクスタス・グリーティング・モーション生成フレームワークを提案する。 realdexや他のオープンデータセットにおいて,本手法の優れた性能が実証されている。 完全なデータセットとコードは、この作業の公開時に利用可能になる。

In this paper, we introduce RealDex, a pioneering dataset capturing authentic dexterous hand grasping motions infused with human behavioral patterns, enriched by multi-view and multimodal visual data. Utilizing a teleoperation system, we seamlessly synchronize human-robot hand poses in real time. This collection of human-like motions is crucial for training dexterous hands to mimic human movements more naturally and precisely. RealDex holds immense promise in advancing humanoid robot for automated perception, cognition, and manipulation in real-world scenarios. Moreover, we introduce a cutting-edge dexterous grasping motion generation framework, which aligns with human experience and enhances real-world applicability through effectively utilizing Multimodal Large Language Models. Extensive experiments have demonstrated the superior performance of our method on RealDex and other open datasets. The complete dataset and code will be made available upon the publication of this work.
翻訳日:2024-02-22 14:52:32 公開日:2024-02-21
# 連続グルコースモニタリングとメンテナンスのためのニューラルコントロールシステム

Neural Control System for Continuous Glucose Monitoring and Maintenance ( http://arxiv.org/abs/2402.13852v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi(参考訳) 糖尿病患者にとってグルコースの正確な管理は重要であり、重篤な合併症を回避している。 本研究では, 差分予測制御を利用して, 連続グルコースモニタリングと保守を行うニューラルコントロールシステムを提案する。 本システムは,高度な神経政策と微分可能なモデリングによって誘導され,インスリン分泌をリアルタイムで動的に調節し,グルコースの最適化を促進する。 このエンドツーエンドのアプローチは効率を最大化し、パーソナライズされたケアと健康結果の改善を保証します。

Precise glucose level management is pivotal for individuals with diabetes, averting severe complications. In this work, we introduce a novel neural control system for continuous glucose monitoring and maintenance, utilizing differential predictive control. Our system, guided by a sophisticated neural policy and differentiable modeling, dynamically adjusts insulin delivery in real-time, enhancing glucose optimization. This end-to-end approach maximizes efficiency, ensuring personalized care and improved health outcomes, as affirmed by empirical findings.
翻訳日:2024-02-22 14:52:15 公開日:2024-02-21
# VL-Trojan: 自動回帰視覚言語モデルに対するマルチモーダル命令バックドアアタック

VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models ( http://arxiv.org/abs/2402.13851v1 )

ライセンス: Link先を確認
Jiawei Liang, Siyuan Liang, Man Luo, Aishan Liu, Dongchen Han, Ee-Chien Chang, Xiaochun Cao(参考訳) オートレグレッシブビジュアル言語モデル(vlms)は、マルチモーダルなコンテキストで印象的な少数ショット学習能力を示す。 近年,命令追従能力を高めるためにマルチモーダル命令チューニングが提案されている。 しかし,本研究では,自動回帰VLMに対するバックドア攻撃による潜在的脅威を明らかにする。 敵は、感染したサンプルに指示や画像に埋め込まれたトリガーを注入することで、バックドアを埋め込むことができる。 それでも、自己回帰vlmにおける凍結視覚エンコーダは、従来の画像トリガーの学習に制約を課している。 さらに、敵は犠牲者モデルのパラメータやアーキテクチャにアクセスする際に制限を受けることがある。 これらの課題に対処するため、我々はマルチモーダル命令バックドア攻撃(VL-Trojan)を提案する。 提案手法は,分離クラスタリング戦略による画像トリガ学習を促進し,反復的文字レベルのテキストトリガ生成手法によりブラックボックス攻撃の有効性を高める。 この攻撃は推論中に目標出力を誘導し、asrのベースライン(+62.52\%)を大きく上回った。 さらに、さまざまなモデルスケールにわたる堅牢性や、コンテキスト内推論のシナリオも示しています。

Autoregressive Visual Language Models (VLMs) showcase impressive few-shot learning capabilities in a multimodal context. Recently, multimodal instruction tuning has been proposed to further enhance instruction-following abilities. However, we uncover the potential threat posed by backdoor attacks on autoregressive VLMs during instruction tuning. Adversaries can implant a backdoor by injecting poisoned samples with triggers embedded in instructions or images, enabling malicious manipulation of the victim model's predictions with predefined triggers. Nevertheless, the frozen visual encoder in autoregressive VLMs imposes constraints on the learning of conventional image triggers. Additionally, adversaries may encounter restrictions in accessing the parameters and architectures of the victim model. To address these challenges, we propose a multimodal instruction backdoor attack, namely VL-Trojan. Our approach facilitates image trigger learning through an isolating and clustering strategy and enhance black-box-attack efficacy via an iterative character-level text trigger generation method. Our attack successfully induces target outputs during inference, significantly surpassing baselines (+62.52\%) in ASR. Moreover, it demonstrates robustness across various model scales and few-shot in-context reasoning scenarios.
翻訳日:2024-02-22 14:52:05 公開日:2024-02-21
# Zero-BEV:BEVマップへの初歩的なモダリティのゼロショットプロジェクション

Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps ( http://arxiv.org/abs/2402.13848v1 )

ライセンス: Link先を確認
Gianluca Monaci, Leonid Antsfeld, Boris Chidlovskii, Christian Wolf(参考訳) バードズ・アイ・ビュー (bird's-eye view, bev) マップは、ロボット工学、特に自動運転車や地上ロボットで広く使われている、幾何学的に構造化された重要な表現である。 既存のアルゴリズムでは、常に確実に利用できるとは限らない幾何学的射影の深度情報を必要とするか、あるいは視覚的ファーストパーソンの観察をBEV表現にマッピングする完全に教師付き方法でエンドツーエンドに訓練されているため、訓練された出力モダリティに制限される。 対照的に、本研究では、対応するBEVマップに対して、一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。 これは、幾何学的逆視点射影をモジュラリティ変換から切り離すことによって達成される。 RGBを占有する。 提案手法は汎用的な手法であり,第1者から検出された意味セグメンテーション,動きベクトル,オブジェクトバウンディングボックスの3つの異なる特徴をbevに投影する実験を行う。 実験により,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。

Bird's-eye view (BEV) maps are an important geometrically structured representation widely used in robotics, in particular self-driving vehicles and terrestrial robots. Existing algorithms either require depth information for the geometric projection, which is not always reliably available, or are trained end-to-end in a fully supervised way to map visual first-person observations to BEV representation, and are therefore restricted to the output modality they have been trained for. In contrast, we propose a new model capable of performing zero-shot projections of any modality available in a first person view to the corresponding BEV map. This is achieved by disentangling the geometric inverse perspective projection from the modality transformation, eg. RGB to occupancy. The method is general and we showcase experiments projecting to BEV three different modalities: semantic segmentation, motion vectors and object bounding boxes detected in first person. We experimentally show that the model outperforms competing methods, in particular the widely used baseline resorting to monocular depth estimation.
翻訳日:2024-02-22 14:51:48 公開日:2024-02-21
# 複製研究:物理誘導機械学習による水文モデリングの強化

Replication Study: Enhancing Hydrological Modeling with Physics-Guided Machine Learning ( http://arxiv.org/abs/2402.13911v1 )

ライセンス: Link先を確認
Mostafa Esmaeilzadeh, Melika Amirzadeh(参考訳) 現在の水文学モデリング手法は、データ駆動機械学習(ML)アルゴリズムと従来の物理モデルを組み合わせて、剛体物理学に基づくモデルとMLアルゴリズムによる物理プロセス制約の無視から、それぞれの制約を誤ってパラメータ推定する。 結果予測におけるMLの精度にもかかわらず、科学的知識の統合は信頼性の高い予測には不可欠である。 本研究では,概念的水文学モデルのプロセス理解とMLアルゴリズムの予測効率を融合した物理インフォームド機械学習(PIML)モデルを提案する。 Anandapurサブキャッシュに応用すると、PIMLモデルは、スタンドアロンの概念モデルとMLアルゴリズムの両方に対して月間ストリームフローと実際の蒸発散を予測し、出力の物理的整合性を保証する。 本研究は,水文モデリングの予測能力をさらに探究するために,水文プロセスに関する物理情報機械学習の重要な研究から,bhasme, p., vagadiya, j., and bhatia, u. (2022) の方法論を再現したものである。

Current hydrological modeling methods combine data-driven Machine Learning (ML) algorithms and traditional physics-based models to address their respective limitations incorrect parameter estimates from rigid physics-based models and the neglect of physical process constraints by ML algorithms. Despite the accuracy of ML in outcome prediction, the integration of scientific knowledge is crucial for reliable predictions. This study introduces a Physics Informed Machine Learning (PIML) model, which merges the process understanding of conceptual hydrological models with the predictive efficiency of ML algorithms. Applied to the Anandapur sub-catchment, the PIML model demonstrates superior performance in forecasting monthly streamflow and actual evapotranspiration over both standalone conceptual models and ML algorithms, ensuring physical consistency of the outputs. This study replicates the methodologies of Bhasme, P., Vagadiya, J., & Bhatia, U. (2022) from their pivotal work on Physics Informed Machine Learning for hydrological processes, utilizing their shared code and datasets to further explore the predictive capabilities in hydrological modeling.
翻訳日:2024-02-22 14:44:25 公開日:2024-02-21
# 量子反転調和振動子と逆二乗ポテンシャルの双対性

Duality between the quantum inverted harmonic oscillator and inverse square potentials ( http://arxiv.org/abs/2402.13909v1 )

ライセンス: Link先を確認
Sriram Sundaram, C. P. Burgess, D. H. J. O'Dell(参考訳) 本稿では、逆調和振動子の量子力学が超臨界逆二乗ポテンシャルにおける粒子の量子力学にどのようにマッピングできるかを示す。 両系をハミルトニアン $H=(xp+px)/2$ でベリー・キーティング系に関連付けることでこれを実証する。 逆二乗ポテンシャルの量子力学は原点近傍の境界条件の選択において曖昧性を有しており、この曖昧性が逆調和振動子系にどのようにマッピングされるかを示す。 境界条件を導入するには、適用された距離スケールを指定する必要があり、このスケールの変更は境界条件の再正規化群(RG)の進化を伴い、観測可能が(任意の)スケールに直接依存しないことを保証する。 物理スケールはこの進化のRG不変量として現れる。 逆二乗ポテンシャルに対する rg フローは、量子異常の単純な例で古典的スケール不変性の離散的破れを記述する極限サイクルに従うことが知られており、逆調和振動子にも極限サイクルが現れることが分かる。 しかし、連続スケーリング対称性が明示的な逆二乗ポテンシャルとは異なり、逆調和振動子の場合はハミルトニアンがより大きなsu(1,1)スペクトル生成代数の一部であるために隠れて発生する。 我々の地図は、粒子の吸収や放出を含むシステムに適するため、境界条件が自己共役である必要はない。

In this paper we show how the quantum mechanics of the inverted harmonic oscillator can be mapped to the quantum mechanics of a particle in a super-critical inverse square potential. We demonstrate this by relating both of these systems to the Berry-Keating system with hamiltonian $H=(xp+px)/2$. It has long been appreciated that the quantum mechanics of the inverse square potential has an ambiguity in choosing a boundary condition near the origin and we show how this ambiguity is mapped to the inverted harmonic oscillator system. Imposing a boundary condition requires specifying a distance scale where it is applied and changes to this scale come with a renormalization group (RG) evolution of the boundary condition that ensures observables do not directly depend on the scale (which is arbitrary). Physical scales instead emerge as RG invariants of this evolution. The RG flow for the inverse square potential is known to follow limit cycles describing the discrete breaking of classical scale invariance in a simple example of a quantum anomaly, and we find that limit cycles also occur for the inverted harmonic oscillator. However, unlike the inverse square potential where the continuous scaling symmetry is explicit, in the case of the inverted harmonic oscillator it is hidden and occurs because the hamiltonian is part of a larger su(1,1) spectrum generating algebra. Our map does not require the boundary condition to be self-adjoint, as can be appropriate for systems that involve the absorption or emission of particles.
翻訳日:2024-02-22 14:44:03 公開日:2024-02-21
# 教師なし文書構造抽出におけるコレクションワイド類似性の利用

Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction ( http://arxiv.org/abs/2402.13906v1 )

ライセンス: Link先を確認
Gili Lior, Yoav Goldberg, Gabriel Stanovsky(参考訳) 様々なドメイン(例えば法律、医学、金融など)の文書コレクションは、しばしば、人間ユーザと構造認識モデルの両方に役立つ情報を取り込む収集全体構造を共有している。 任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントロケーションに接地しながら、コレクション全体で繰り返し発生するトピックをキャプチャする必要があるコレクション内のドキュメントの典型的な構造を特定することを提案する。 繰り返しトピックをマークするヘッダは、phrasingで頻繁に異なる、特定のセクションヘッダは個々のドキュメントに固有のもので、典型的な構造を反映していない、トピックの順序はドキュメントによって異なる。 その後,文書間の類似性を利用した教師なしグラフベース手法を開発し,その基盤となる収集構造を抽出する。 英語とヘブライ語の両方における3つの異なるドメインの評価から,本手法は有意義なコレクションワイド構造を抽出でき,マルチドキュメントアプリケーションや構造認識モデルに対して,今後の研究が活用されることを期待している。

Document collections of various domains, e.g., legal, medical, or financial, often share some underlying collection-wide structure, which captures information that can aid both human users and structure-aware models. We propose to identify the typical structure of document within a collection, which requires to capture recurring topics across the collection, while abstracting over arbitrary header paraphrases, and ground each topic to respective document locations. These requirements pose several challenges: headers that mark recurring topics frequently differ in phrasing, certain section headers are unique to individual documents and do not reflect the typical structure, and the order of topics can vary between documents. Subsequently, we develop an unsupervised graph-based method which leverages both inter- and intra-document similarities, to extract the underlying collection-wide structure. Our evaluations on three diverse domains in both English and Hebrew indicate that our method extracts meaningful collection-wide structure, and we hope that future work will leverage our method for multi-document applications and structure-aware models.
翻訳日:2024-02-22 14:43:39 公開日:2024-02-21
# サンプル一貫性による大規模言語モデルの校正

Calibrating Large Language Models with Sample Consistency ( http://arxiv.org/abs/2402.13904v1 )

ライセンス: Link先を確認
Qing Lyu, Kumar Shridhar, Chaitanya Malaviya, Li Zhang, Yanai Elazar, Niket Tandon, Marianna Apidianaki, Mrinmaya Sachan, Chris Callison-Burch(参考訳) 大規模言語モデル(llms)の予測の信頼性レベルを正確に測定することは、信頼性の高いアプリケーションにとって重要である。 しかし、LSMは本質的には校正されていないことが多く、その独自性や大規模性から従来の校正技法を欠いている。 本研究では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,3つの整合性尺度を用いて検討する。 9つの推論データセット上で,さまざまなオープンソースモデルとクローズドソースモデルにわたる広範な評価を行う。 その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック法よりも優れていることがわかった。 一方,中間的説明やモデルスケーリング,より大きなサンプルサイズなどの要因は校正を促進させる一方,命令チューニングは校正を困難にする。 さらに、一貫性から得られる信頼スコアは、モデル性能を向上させる可能性がある。 最後に,種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提案する。

Accurately gauging the confidence level of Large Language Models' (LLMs) predictions is pivotal for their reliable application. However, LLMs are often uncalibrated inherently and elude conventional calibration techniques due to their proprietary nature and massive scale. In this work, we explore the potential of deriving confidence from the distribution of multiple randomly sampled model generations, via three measures of consistency. We perform an extensive evaluation across various open and closed-source models on nine reasoning datasets. Results show that consistency-based calibration methods outperform existing post-hoc approaches. Meanwhile, we find that factors such as intermediate explanations, model scaling, and larger sample sizes enhance calibration, while instruction-tuning makes calibration more difficult. Moreover, confidence scores obtained from consistency have the potential to enhance model performance. Finally, we offer practical guidance on choosing suitable consistency metrics for calibration, tailored to the characteristics of various LMs.
翻訳日:2024-02-22 14:43:19 公開日:2024-02-21
# 確率的鞍点最適化における非有界勾配の扱い

Dealing with unbounded gradients in stochastic saddle-point optimization ( http://arxiv.org/abs/2402.13903v1 )

ライセンス: Link先を確認
Gergely Neu, Nneka Okolo(参考訳) 凸凸関数の鞍点を求める確率的一階法の性能について検討する。 このような手法が直面する悪名高い課題は、最適化中に勾配が任意に大きく成長し、不安定性とばらつきをもたらす可能性があることである。 本稿では,イテレートのサイズに領域や勾配ノイズが線形にスケールしても,イテレートを安定化し,有意義な性能保証を実現する,簡便で効果的な正則化手法を提案する。 また,本アルゴリズムを強化学習の特定の問題に適用することにより,偏りの事前知識を伴わずに,平均回帰型MDPにおける準最適ポリシの探索性能が保証される。

We study the performance of stochastic first-order methods for finding saddle points of convex-concave functions. A notorious challenge faced by such methods is that the gradients can grow arbitrarily large during optimization, which may result in instability and divergence. In this paper, we propose a simple and effective regularization technique that stabilizes the iterates and yields meaningful performance guarantees even if the domain and the gradient noise scales linearly with the size of the iterates (and is thus potentially unbounded). Besides providing a set of general results, we also apply our algorithm to a specific problem in reinforcement learning, where it leads to performance guarantees for finding near-optimal policies in an average-reward MDP without prior knowledge of the bias span.
翻訳日:2024-02-22 14:43:04 公開日:2024-02-21
# 離散時間拡散モデルの非漸近収束:新しいアプローチと改善率

Non-asymptotic Convergence of Discrete-time Diffusion Models: New Approach and Improved Rate ( http://arxiv.org/abs/2402.13901v1 )

ライセンス: Link先を確認
Yuchen Liang, Peizhong Ju, Yingbin Liang, Ness Shroff(参考訳) ノイズをデータに変換する強力な生成技術として,近年,デノナイジング拡散モデルが登場している。 理論収束保証は連続時間拡散モデルで主に研究されており、離散時間拡散モデルでは、文献において有界な支持を持つ分布に対してのみ得られる。 本稿では,離散時間拡散モデルに基づく分布のかなり大きなクラスに対する収束保証を確立するとともに,有界な分布に対する収束率をさらに向上する。 特に、まず、有限第二モーメントを持つ滑らかかつ一般(おそらくは非スムース)分布の収束率を確立する。 この結果から,リプシッツスコアの分布,ガウス混合分布,有界サポートのある分布など,パラメータ依存性が明示された多数の興味深い分布クラスを特殊化する。 さらに,新しい加速サンプリング器を提案し,対応する正則サンプリング器の収束率を,全てのシステムパラメータに対して桁違いに向上させることを示す。 有界な支持を持つ分布に対しては, 従来の収束率の次元依存性を桁違いに改善する。 本研究は,収束誤差の傾き係数表現を構築し,Tweedieの公式を利用してTaylor拡張パワー項を扱う新しい解析手法を特徴とする。

The denoising diffusion model emerges recently as a powerful generative technique that converts noise into data. Theoretical convergence guarantee has been mainly studied for continuous-time diffusion models, and has been obtained for discrete-time diffusion models only for distributions with bounded support in the literature. In this paper, we establish the convergence guarantee for substantially larger classes of distributions under discrete-time diffusion models and further improve the convergence rate for distributions with bounded support. In particular, we first establish the convergence rates for both smooth and general (possibly non-smooth) distributions having finite second moment. We then specialize our results to a number of interesting classes of distributions with explicit parameter dependencies, including distributions with Lipschitz scores, Gaussian mixture distributions, and distributions with bounded support. We further propose a novel accelerated sampler and show that it improves the convergence rates of the corresponding regular sampler by orders of magnitude with respect to all system parameters. For distributions with bounded support, our result improves the dimensional dependence of the previous convergence rate by orders of magnitude. Our study features a novel analysis technique that constructs tilting factor representation of the convergence error and exploits Tweedie's formula for handling Taylor expansion power terms.
翻訳日:2024-02-22 14:42:49 公開日:2024-02-21
# 光励起三重電子を用いた有機結晶中の室温量子センシング

Room-temperature quantum sensing with photoexcited triplet electrons in organic crystals ( http://arxiv.org/abs/2402.13898v1 )

ライセンス: Link先を確認
Harpreet Singh, Noella D'Souza, Keyuan Zhong, Emanuel Druga, Julianne Oshiro, Brian Blankenship, Jeffrey A. Reimer, Jonathan D. Breeze, and Ashok Ajoy(参考訳) 量子センサーは特に高感度磁場検出技術が進歩している。 ここでは,光励起有機蛍光体中の偏光スピン三重項電子から構築した量子センサーについて報告する。 光偏光と状態依存蛍光コントラストという室温における必須量子センシング特性を,三重項状態と基底状態の差動励起と緩和率を利用して実証する。 室温での3重項状態の高光度検出磁気共鳴(odmr)コントラスト${\approx}16.8\%$とスピンエコーとcpmg系列の長いコヒーレンス時間、それぞれ$t_2{=}2.7\mu$sと$t_2^{dd}{=}18.4\mu$sを測定し、三重項寿命のみに制限した。 この物質は、大きな(cm$-scale)結晶を低コストで成長させる能力、常磁性不純物が存在しないこと、光学的に照らされていない場合の電子状態の反磁性など、量子センシングのいくつかの利点を提供する。 ペンタセンをスピン三重項偏極性有機分子の幅広いクラスの代表として利用し、化学系における量子センシングの新たな可能性を強調した。

Quantum sensors have notably advanced high-sensitivity magnetic field detection. Here, we report quantum sensors constructed from polarized spin-triplet electrons in photoexcited organic chromophores, specifically focusing on pentacene-doped para-terphenyl (${\approx}$0.1%). We demonstrate essential quantum sensing properties at room temperature: electronic optical polarization and state-dependent fluorescence contrast, by leveraging differential pumping and relaxation rates between triplet and ground states. We measure high optically detected magnetic resonance (ODMR) contrast ${\approx}16.8\%$ of the triplet states at room temperature, along with long coherence times under spin echo and CPMG sequences, $T_2{=}2.7\mu$s and $T_2^{DD}{=}18.4\mu$s respectively, limited only by the triplet lifetimes. The material offers several advantages for quantum sensing, including the ability to grow large ($cm$-scale) crystals at low cost, the absence of paramagnetic impurities, and the diamagnetism of electronic states used for sensing when not optically illuminated. Utilizing pentacene as a representative of a broader class of spin triplet-polarizable organic molecules, this study highlights new potential for quantum sensing in chemical systems.
翻訳日:2024-02-22 14:42:30 公開日:2024-02-21
# science checker reloaded: 透明性と論理的推論のための双方向パラダイム

Science Checker Reloaded: A Bidirectional Paradigm for Transparency and Logical Reasoning ( http://arxiv.org/abs/2402.13897v1 )

ライセンス: Link先を確認
Lo\"ic Rakotoson, Sylvain Massip, Fr\'ejus A. A. Laleye(参考訳) 情報検索は急速に発展する分野である。 しかし、スパース検索における意味的ばらつきや語彙のギャップ、低い精度、意味探索における解釈可能性の欠如、あるいは生成モデルにおける幻覚や時代遅れの情報など、科学的、産業的な膨大な情報に依然として大きな制限が課されている。 本稿では,長い文書のハードルに対処するための2ブロック手法を提案する。 第1ブロックは、クエリ拡張によりスパース検索における言語理解を強化し、関連する文書を取得する。 第2ブロックは、長い文書に広がる情報のみを用いて、複雑な質問に対して包括的で情報的な回答を提供することで、結果をより深くし、双方向のエンゲージメントを可能にする。 パイプラインの様々な段階で、システム推論の理解を容易にするために中間結果がユーザに提示される。 この双方向アプローチは、科学情報検索の分野における透明性、論理的思考、そして包括的理解の観点から、大きな進歩をもたらすと考えている。

Information retrieval is a rapidly evolving field. However it still faces significant limitations in the scientific and industrial vast amounts of information, such as semantic divergence and vocabulary gaps in sparse retrieval, low precision and lack of interpretability in semantic search, or hallucination and outdated information in generative models. In this paper, we introduce a two-block approach to tackle these hurdles for long documents. The first block enhances language understanding in sparse retrieval by query expansion to retrieve relevant documents. The second block deepens the result by providing comprehensive and informative answers to the complex question using only the information spread in the long document, enabling bidirectional engagement. At various stages of the pipeline, intermediate results are presented to users to facilitate understanding of the system's reasoning. We believe this bidirectional approach brings significant advancements in terms of transparency, logical thinking, and comprehensive understanding in the field of scientific information retrieval.
翻訳日:2024-02-22 14:42:03 公開日:2024-02-21
# 最短ベクトル問題に対するgroverのoracleとそのハイブリッド古典量子解法への応用

Grover's oracle for the Shortest Vector Problem and its application in hybrid classical-quantum solvers ( http://arxiv.org/abs/2402.13895v1 )

ライセンス: Link先を確認
Milos Prokop, Petros Wallden, David Joseph(参考訳) 格子内の最短ベクトルを見つけることは、古典的コンピュータと量子コンピュータの両方にとって難しい問題であると考えられている。 量子後セキュリティ暗号の多くは、最短ベクトル問題(SVP)の難しさに基づくセキュリティを基盤としている。 SVPのための古典的、量子的、あるいはハイブリッドな古典量子アルゴリズムを見つけるには、十分なセキュリティレベルを提供する暗号系パラメータを選択する必要がある。 グローバーの探索量子アルゴリズムは、解がいつ見つかるかを記述する関数を実装するオラクルへのアクセスを前提として、一般的な二次的なスピードアップを提供する。 本稿では,svp に対する oracle の具体的な実装について述べる。 回路を定義し、キュービット数、ゲート数、深さおよびT量子コストの観点からコストを評価する。 次に、Groverの小さなSVPインスタンスの量子探索と、BKZのようなよく知られたアルゴリズムを使った最先端の古典的解法を組み合わせる方法を分析する。 これにより、従来の最先端レコードよりも高い確率でSVPのより大きなインスタンスを解決できるが、標準化のために考慮されている暗号システムに対する脅威には程遠い。 利用可能な技術によっては、この組み合わせにはさまざまなトレードオフがある。

Finding the shortest vector in a lattice is a problem that is believed to be hard both for classical and quantum computers. Many major post-quantum secure cryptosystems base their security on the hardness of the Shortest Vector Problem (SVP). Finding the best classical, quantum or hybrid classical-quantum algorithms for SVP is necessary to select cryptosystem parameters that offer sufficient level of security. Grover's search quantum algorithm provides a generic quadratic speed-up, given access to an oracle implementing some function which describes when a solution is found. In this paper we provide concrete implementation of such an oracle for the SVP. We define the circuit, and evaluate costs in terms of number of qubits, number of gates, depth and T-quantum cost. We then analyze how to combine Grover's quantum search for small SVP instances with state-of-the-art classical solvers that use well known algorithms, such as the BKZ, where the former is used as a subroutine. This could enable solving larger instances of SVP with higher probability than classical state-of-the-art records, but still very far from posing any threat to cryptosystems being considered for standardization. Depending on the technology available, there is a spectrum of trade-offs in creating this combination.
翻訳日:2024-02-22 14:41:45 公開日:2024-02-21
# ミンコフスキー時空のコーシー曲面上の量子粒子局在観測器とその因果特性

Quantum particle localization observables on Cauchy surfaces of Minkowski spacetime and their causal properties ( http://arxiv.org/abs/2402.13894v1 )

ライセンス: Link先を確認
Carmine De Rosa, Valter Moretti (Trento U and INFN)(参考訳) ミンコフスキー時空における量子系の空間様滑らかなコーシー曲面上の空間局在の一般概念を紹介・研究する。 この概念は正規化された povm のコヒーレント族(英語版)(coherent family)という用語で構成される。 このタイプのPOVMの族が自動的にカスティーリャーノ曲面を一般化する因果条件を満たすことを証明し、平坦な空間のようなコーシー曲面に制限するときにそれを暗示する。 その結果、ヘーゲルフェルトの定理との矛盾は生じない。 さらに、これらのPOVMの族がクライン=ゴルドン粒子に対して存在することを証明している。 これらは正定核から導かれるか、あるいは応力エネルギーテンソル作用素の項で定義される。 これらの構造のさらなる特徴、特にニュートン・ウィグナー自己随伴作用素の三重項と他のミンコフスキー参照フレームの3$-空間におけるハイゼンベルク不等式の修正形式との関係について検討する。

We introduce and study a general notion of spatial localization on spacelike smooth Cauchy surfaces of quantum systems in Minkowski spacetime. The notion is constructed in terms of a coherent family of normalized POVMs, one for each said Cauchy surface. We prove that a family of POVMs of this type automatically satisfies a causality condition which generalizes Castrigiano's one and implies it when restricting to flat spacelike Cauchy surfaces. As a consequence no conflict with Hegerfeldt's theorem arises. We furthermore prove that such families of POVMs do exist for massive Klein-Gordon particles, since some of them are extensions of already known spatial localization observables. These are construted out of positive definite kernels or are defined in terms of the stress-energy tensor operator. Some further features of these structures are investigated, in particular, the relation with the triple of Newton-Wigner selfadjoint operators and a modified form of Heisenberg inequality in the rest $3$-spaces of Minkowski reference frames
翻訳日:2024-02-22 14:41:24 公開日:2024-02-21
# 反復正規化による密度比推定における過渡飽和

Overcoming Saturation in Density Ratio Estimation by Iterated Regularization ( http://arxiv.org/abs/2402.13891v1 )

ライセンス: Link先を確認
Lukas Gruber, Markus Holzleitner, Johannes Lehner, Sepp Hochreiter, Werner Zellinger(参考訳) 有限個のサンプルから2つの確率密度の比率を推定することは、機械学習と統計学の中心的なタスクである。 本研究では,密度比推定のための多種多様なカーネル手法が誤差飽和に苦しむことを示し,アルゴリズムが高正規学習問題に対して高速な誤差収束率を達成できないことを示した。 飽和を解消するために,密度比推定の反復正則化を導入し,高速な誤差率を実現する。 提案手法は,密度比推定のためのベンチマークや,深い教師なしドメイン適応モデルの重要度重み付けセンシングの大規模評価において,非反復正規化バージョンを上回っている。

Estimating the ratio of two probability densities from finitely many samples, is a central task in machine learning and statistics. In this work, we show that a large class of kernel methods for density ratio estimation suffers from error saturation, which prevents algorithms from achieving fast error convergence rates on highly regular learning problems. To resolve saturation, we introduce iterated regularization in density ratio estimation to achieve fast error rates. Our methods outperform its non-iteratively regularized versions on benchmarks for density ratio estimation as well as on large-scale evaluations for importance-weighted ensembling of deep unsupervised domain adaptation models.
翻訳日:2024-02-22 14:41:05 公開日:2024-02-21
# 臨床における区間仮説テストのための統一ベイズフレームワーク

A unified Bayesian framework for interval hypothesis testing in clinical trials ( http://arxiv.org/abs/2402.13890v1 )

ライセンス: Link先を確認
Abhisek Chakraborty, Megan H. Murray, Ilya Lipkovich, Yu Du(参考訳) アメリカ統計協会(ASA)は統計学的重要性とP値に関する声明を公表し、統計学者に従来のP値に基づいて科学的決定を行うことを警告した。 この声明は、透明性の欠如、ヌル仮説を支持する証拠を定量化できないこと、効果の大きさや結果の重要性を計測できないことなど、P値に関する重要な問題を明らかにした。 本稿では,ベイズ係数に基づくテストと組み合わせて用いられる区間ヌル仮説フレームワーク(ポイントヌル仮説フレームワークではなく)が,p値の重要な問題を回避する上で有効であることを示す。 さらに,ベイズ因子の事前密度の特定は困難であり,既存の文献におけるベイズ仮説検定に対する批判の理由ともなっている。 一般的なテスト統計に基づいてベイズ因子を直接適用することでこの問題に対処する。 数値実験と実データ例を通して,提案したベイズ区間仮説試験法を校正し,固有解釈性を維持しながら頻繁な誤差制御を確実にすることを示した。 最後に, 実験結果報告の文脈において, 競争的ランドスケープ分析とエンドツーエンドベイズ仮説テストのためのコヒーレントなフレームワークを提供することにより, 提案手法の柔軟性と適用性が向上することを示す。

The American Statistical Association (ASA) statement on statistical significance and P-values \cite{wasserstein2016asa} cautioned statisticians against making scientific decisions solely on the basis of traditional P-values. The statement delineated key issues with P-values, including a lack of transparency, an inability to quantify evidence in support of the null hypothesis, and an inability to measure the size of an effect or the importance of a result. In this article, we demonstrate that the interval null hypothesis framework (instead of the point null hypothesis framework), when used in tandem with Bayes factor-based tests, is instrumental in circumnavigating the key issues of P-values. Further, we note that specifying prior densities for Bayes factors is challenging and has been a reason for criticism of Bayesian hypothesis testing in existing literature. We address this by adapting Bayes factors directly based on common test statistics. We demonstrate, through numerical experiments and real data examples, that the proposed Bayesian interval hypothesis testing procedures can be calibrated to ensure frequentist error control while retaining their inherent interpretability. Finally, we illustrate the improved flexibility and applicability of the proposed methods by providing coherent frameworks for competitive landscape analysis and end-to-end Bayesian hypothesis tests in the context of reporting clinical trial outcomes.
翻訳日:2024-02-22 14:40:54 公開日:2024-02-21
# 確率を超えて: 大規模言語モデルを評価する際の過ちを解消する

Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models ( http://arxiv.org/abs/2402.13887v1 )

ライセンス: Link先を確認
Chenyang Lyu, Minghao Wu, Alham Fikri Aji(参考訳) 大規模言語モデル(llm)は、自然言語処理(nlp)研究の展望を根本的に変えて、さまざまなアプリケーションで顕著な能力を示している。 しかし、最近の評価フレームワークは、主に計算上の制約のため、実世界のllm使用シナリオから逸脱し、予測のためにllmの出力確率に依存することが多い。 広く採用されているが、これらの確率に基づく評価戦略の有効性は未解決の課題である。 本研究の目的は,LLMs for Multiple Choice Questions (MCQs) の文脈における確率に基づく評価手法の有効性を検討することである。 本研究は, 確率ベース評価手法が世代別予測と不一致であることを明らかにする。 さらに、現在の評価フレームワークでは、計算量制限のため、直接応答を生成するのではなく、出力確率に基づく予測タスクを通じてllmを評価するのが一般的である。 これらの確率に基づくアプローチは生成予測と効果的に一致しないことを示す。 本研究の結果は,LLM評価手法の理解を深め,今後の研究への洞察を与えることができる。

Large Language Models (LLMs) have demonstrated remarkable capabilities across various applications, fundamentally reshaping the landscape of natural language processing (NLP) research. However, recent evaluation frameworks often rely on the output probabilities of LLMs for predictions, primarily due to computational constraints, diverging from real-world LLM usage scenarios. While widely employed, the efficacy of these probability-based evaluation strategies remains an open research question. This study aims to scrutinize the validity of such probability-based evaluation methods within the context of using LLMs for Multiple Choice Questions (MCQs), highlighting their inherent limitations. Our empirical investigation reveals that the prevalent probability-based evaluation method inadequately aligns with generation-based prediction. Furthermore, current evaluation frameworks typically assess LLMs through predictive tasks based on output probabilities rather than directly generating responses, owing to computational limitations. We illustrate that these probability-based approaches do not effectively correspond with generative predictions. The outcomes of our study can enhance the understanding of LLM evaluation methodologies and provide insights for future research in this domain.
翻訳日:2024-02-22 14:40:32 公開日:2024-02-21
# 非アベリア・アハロノフ・ボーム散乱におけるイソスピン沈着

Isospin precession in non-Abelian Aharonov-Bohm scattering ( http://arxiv.org/abs/2402.13883v1 )

ライセンス: Link先を確認
Peng-Ming Zhang and Peter Horvathy(参考訳) 擬古典的イゾスピンの概念は1975年にウーとヤンによって提唱された非アーベル的アハラノフ・ボーム効果によって示されている。 空間運動は自由であるが、囲まれた磁束と入射粒子のイソソピンが平行でない場合にイソスピンが先行する。 非アベリア位相因子 $\mathfrak{F}$ of Wu and Yang は、S-行列としてイソスピンに作用する。 クローズドフラックスが量子化されると、散乱はサイド独立となり、${\Phi}_N=N\Phi_0$と$N$が整数となる。 ゲージ群 $SU(2)$ は内部対称性であり、フラックスが量子化されるときのみ保存電荷を生成し、次に2つの級数に分解する:$N=2k$ $SU(2)$ 自明に振る舞うが、$N=1+2k$ の実装はツイストされる。 軌道と内部角モーメントは別々に保存される。 二重回転対称性は、$n$ odd のとき、$so(2)\times so(2)$ に破られる。 量子化されていないフラックスには内部対称性がなく、電荷は保存されず、陽子を中性子に変換することができる。

The concept of pseudoclassical isospin is illustrated by the non-Abelian Aharonov-Bohm effect proposed by Wu and Yang in 1975. The spatial motion is free however the isospin precesses when the enclosed magnetic flux and the incoming particle's isosopin are not parallel. The non-Abelian phase factor $\mathfrak{F}$ of Wu and Yang acts on the isospin as an S-matrix. The scattering becomes side-independent when the enclosed flux is quantized, ${\Phi}_N=N\Phi_0$ with $N$ an integer. The gauge group $SU(2)$ is an internal symmetry and generates conserved charges only when the flux is quantized, which then splits into two series: for $N=2k$ $SU(2)$ acts trivially but for $N=1+2k$ the implementation is twisted. The orbital and the internal angular momenta are separately conserved. The double rotational symmetry is broken to $SO(2)\times SO(2)$ when $N$ odd. For unquantized flux there are no internal symmetries, the charge is not conserved and protons can be turned into neutrons.
翻訳日:2024-02-22 14:40:13 公開日:2024-02-21
# 多体ガウス量子系における部分遷移誘導絡み合いクラスと最小ノイズフィルタリング

Partial-transpose-guided entanglement classes and minimum noise filtering in many-body Gaussian quantum systems ( http://arxiv.org/abs/2402.13881v1 )

ライセンス: Link先を確認
Boyu Gao and Natalie Klco(参考訳) 古典的雑音の存在下での量子相関の低減と歪みは、量子情報処理プロトコルのリソースとしての絡み合いの可用性の非効率の様々なレベルをもたらす。 混合量子状態に必要な絡み合いを総じて最小化することは依然として困難であるが、多体ガウス量子状態(\mathcal{N}$IC)のクラスは、古典的相関と最適な絡み合い資源を包含した対数的負の絡み合い尺度が不変である純粋状態のものと類似した2モードの二部絡み合い構造を示すと同定される。 このサブクラスは、検出プロセスのための2モードの絡み合い構造を保持する多体ガウス状態(\mathcal{N}$-SOL)のより広いクラスに埋め込まれている。 これらの2つの絡み合いクラスは、スカラー場真空から捕捉イオン鎖の局所軸運動モードへの理論的および実験的応用に関係している。 部分的転位に応答して分離不能となる部分空間を利用することにより、これらの絡み合い構造のクラスのメンバーシップを決定するのに必要かつ十分かつ計算可能な最小ノイズフィルタリング処理を設計できる。 この過程を自由スカラー場真空の空間的領域に適用することで、資源上界が改善され、局所検出器の配列によって観察される量子場の量子シミュレーションに必要な絡み合いの新たな理解が得られる。

The reduction and distortion of quantum correlations in the presence of classical noise leads to varied levels of inefficiency in the availability of entanglement as a resource for quantum information processing protocols. While generically minimizing required entanglement for mixed quantum states remains challenging, a class of many-body Gaussian quantum states ($\mathcal{N}$IC) is here identified that exhibits two-mode bipartite entanglement structure, resembling that of pure states, for which the logarithmic negativity entanglement measure remains invariant upon inclusion of the classical correlations and optimal entanglement resources can be clearly quantified. This subclass is found to be embedded within a broader class of many-body Gaussian states ($\mathcal{N}$-SOL) that retain two-mode entanglement structure for detection processes. These two entanglement classes are relevant in theoretical and experimental applications from the scalar field vacuum to the local axial motional modes of trapped ion chains. Utilizing the subspace that heralds inseparability in response to partial transposition, a minimum noise filtering process is designed to be necessary, sufficient, and computable for determining membership in these classes of entanglement structure. Application of this process to spacelike regions of the free scalar field vacuum is found to improve resource upper bounds, providing new understanding of the entanglement required for the quantum simulation of quantum fields as observed by arrays of local detectors.
翻訳日:2024-02-22 14:39:50 公開日:2024-02-21
# 科学的機械学習における線形不確かさのモデル化のための確率論的ニューラルネットワーク(PNN)

Probabilistic Neural Networks (PNNs) for Modeling Aleatoric Uncertainty in Scientific Machine Learning ( http://arxiv.org/abs/2402.13945v1 )

ライセンス: Link先を確認
Farhad Pourkamali-Anaraki, Jamal F. Husseini, Scott E. Stapleton(参考訳) 本稿では,確率論的ニューラルネットワーク(PNN)を用いて,システムの入出力関係における固有変動をモデル化し,不等分散や不均質性を特徴とする。 決定論的出力を生成する従来のニューラルネットワークとは異なり、PNNはターゲット変数の確率分布を生成し、回帰シナリオにおける予測された平均と間隔を決定できる。 本稿では,PNNアーキテクチャを最適化するための確率的距離測定法の開発,制御されたデータセットへのPNNの展開,および繊維強化複合材料を含む実用的物質科学事例について述べる。 以上の結果から,PNNはアレータリック不確実性を効果的にモデル化し,ガウス過程の回帰よりも適切であることが確認された。 具体的には、実世界の科学機械学習の文脈において、PNNはR2乗のスコアが0.97に近づき、その予測間隔は0.80に近い高い相関係数を示し、観測データ間隔は密に一致している。 そこで本研究では, ニューラルネットワークの洗練された表現能力を活用し, 複雑な入出力関係を科学的な問題に展開する研究に寄与する。

This paper investigates the use of probabilistic neural networks (PNNs) to model aleatoric uncertainty, which refers to the inherent variability in the input-output relationships of a system, often characterized by unequal variance or heteroscedasticity. Unlike traditional neural networks that produce deterministic outputs, PNNs generate probability distributions for the target variable, allowing the determination of both predicted means and intervals in regression scenarios. Contributions of this paper include the development of a probabilistic distance metric to optimize PNN architecture, and the deployment of PNNs in controlled data sets as well as a practical material science case involving fiber-reinforced composites. The findings confirm that PNNs effectively model aleatoric uncertainty, proving to be more appropriate than the commonly employed Gaussian process regression for this purpose. Specifically, in a real-world scientific machine learning context, PNNs yield remarkably accurate output mean estimates with R-squared scores approaching 0.97, and their predicted intervals exhibit a high correlation coefficient of nearly 0.80, closely matching observed data intervals. Hence, this research contributes to the ongoing exploration of leveraging the sophisticated representational capacity of neural networks to delineate complex input-output relationships in scientific problems.
翻訳日:2024-02-22 14:32:10 公開日:2024-02-21
# トポロジーに基づく境界引き締めによるメッセージパッシングニューラルネットワークの検証

Verifying message-passing neural networks via topology-based bounds tightening ( http://arxiv.org/abs/2402.13937v1 )

ライセンス: Link先を確認
Christopher Hojny, Shiqiang Zhang, Juan S. Campos, Ruth Misener(参考訳) グラフニューラルネットワーク(GNN)は攻撃に対して脆弱であることが多いため、いつそれを信頼できるかを知る必要がある。 我々は、Rectified Linear Unit (ReLU) アクティベーション関数を用いて、メッセージパスニューラルネットワーク(MPNN)のための堅牢な証明を提供するための、計算学的に効果的なアプローチを開発する。 私たちの仕事は混合整数最適化に基づいているので、例えば、様々なサブプロブレムをエンコードします。 (i)エッジの追加と削除の両方 (二)グローバル及び地方予算、及び (iii)位相摂動と特徴変化の両方 私たちの重要な技術であるトポロジベースの境界締め付けは、グラフ構造を使って境界を締め付けます。 また,変数境界の締め付けによる最適化制約を動的に変更するために,アグレッシブ境界の締め付け実験を行った。 これらの戦略の有効性を示すために,オープンソースブランチ・アンド・カット・ソルバSCIPの拡張を実装した。 ノード分類とグラフ分類の両方の問題を検証し、エッジの追加と削除の両方を行うトポロジ的攻撃を検討する。

Since graph neural networks (GNNs) are often vulnerable to attack, we need to know when we can trust them. We develop a computationally effective approach towards providing robust certificates for message-passing neural networks (MPNNs) using a Rectified Linear Unit (ReLU) activation function. Because our work builds on mixed-integer optimization, it encodes a wide variety of subproblems, for example it admits (i) both adding and removing edges, (ii) both global and local budgets, and (iii) both topological perturbations and feature modifications. Our key technology, topology-based bounds tightening, uses graph structure to tighten bounds. We also experiment with aggressive bounds tightening to dynamically change the optimization constraints by tightening variable bounds. To demonstrate the effectiveness of these strategies, we implement an extension to the open-source branch-and-cut solver SCIP. We test on both node and graph classification problems and consider topological attacks that both add and remove edges.
翻訳日:2024-02-22 14:31:47 公開日:2024-02-21
# 識別的画像キャプション:CLIP指導強化学習における地中真実キャプションの活用

Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning ( http://arxiv.org/abs/2402.13936v1 )

ライセンス: Link先を確認
Antoine Chaffin, Ewa Kijak, Vincent Claveau(参考訳) 教師の強制力を用いた画像キャプションモデルの訓練は非常に一般的なサンプルとなるが、より特徴的なキャプションは検索アプリケーションやアクセシビリティのための画像を記述する代替テキストを作成するのに非常に有用である。 強化学習(Reinforcement Learning, RL)は、生成されたキャプションと入力イメージの相互検索類似度スコアをトレーニングをガイドするための報酬として使用することができる。 近年の研究では、訓練済みのクロスモーダル検索モデルを用いて報酬を得られることを示し、参照キャプションの必要性を完全に排除している。 しかし、本稿では、このRLフレームワークでは、GTキャプションは依然として有用である、と論じる。 本稿では,GTキャプションを異なる方法で活用する画像キャプションモデルトレーニング戦略を提案する。 まず、報酬ハッキングを防ぐために正規化として機能するシンプルなmlp判別器をトレーニングし、生成したキャプションの流動性を保証することで、マルチモーダル入力用にテキストgan設定を拡張することができる。 第二に、これらはRL戦略における追加の軌跡として機能し、教師がGTと画像の類似性によって損失を重み付けする。 この目的は、GTキャプションの分布に基づく追加の学習信号として機能する。 第3に、提案したコントラッシブ報酬を計算するために使用されるキャプションのプールに追加すると、勾配推定のばらつきを減らすために、強いベースラインとして機能する。 MS-COCOの実験は、高い筆記品質を維持しつつ、非常に独特なキャプションを生成するためのトレーニング戦略の関心を示すものである。

Training image captioning models using teacher forcing results in very generic samples, whereas more distinctive captions can be very useful in retrieval applications or to produce alternative texts describing images for accessibility. Reinforcement Learning (RL) allows to use cross-modal retrieval similarity score between the generated caption and the input image as reward to guide the training, leading to more distinctive captions. Recent studies show that pre-trained cross-modal retrieval models can be used to provide this reward, completely eliminating the need for reference captions. However, we argue in this paper that Ground Truth (GT) captions can still be useful in this RL framework. We propose a new image captioning model training strategy that makes use of GT captions in different ways. Firstly, they can be used to train a simple MLP discriminator that serves as a regularization to prevent reward hacking and ensures the fluency of generated captions, resulting in a textual GAN setup extended for multimodal inputs. Secondly, they can serve as additional trajectories in the RL strategy, resulting in a teacher forcing loss weighted by the similarity of the GT to the image. This objective acts as an additional learning signal grounded to the distribution of the GT captions. Thirdly, they can serve as strong baselines when added to the pool of captions used to compute the proposed contrastive reward to reduce the variance of gradient estimate. Experiments on MS-COCO demonstrate the interest of the proposed training strategy to produce highly distinctive captions while maintaining high writing quality.
翻訳日:2024-02-22 14:31:30 公開日:2024-02-21
# 効率的なトランスフォーマーは本当に計算を救えるのか?

Do Efficient Transformers Really Save Computation? ( http://arxiv.org/abs/2402.13934v1 )

ライセンス: Link先を確認
Kai Yang, Jan Ackermann, Zhenyu He, Guhao Feng, Bohang Zhang, Yunzhen Feng, Qiwei Ye, Di He, Liwei Wang(参考訳) トランスフォーマーベースの言語モデルは、ますます大きなデータセットと膨大な数のパラメータでトレーニングされているため、標準トランスフォーマーのより効率的な代替品を見つけることは、非常に有用である。 多くの効率的なTransformerとTransformerの代替案が提案されているが、標準的なTransformerの代替品であるという理論的保証は得られていない。 これにより、特定のモデルを使用するタイミングと、さらなる調査を優先する方向を特定することが困難になる。 本稿では,効率的な変換器,特にスパース変換器と線形変換器の機能と限界を理解することを目的とする。 chain-of-thought (cot) プロンプトによって示された推論能力に注目し、それらを動的プログラミング(dp)問題としてモデル化する以前の作業に従う。 その結果,これらのモデルでは一般的なdpタスクを十分に表現可能であり,期待に反して,問題のサイズに応じてスケールするモデルサイズが必要となることがわかった。 それにもかかわらず、これらのモデルが標準トランスフォーマーよりも効率的であるdp問題のクラスを特定する。 提案手法は,DPタスクに対する実験を通じて理論的結果を検証し,効率的なトランスフォーマーの実用的強みと弱みの理解を深める。

As transformer-based language models are trained on increasingly large datasets and with vast numbers of parameters, finding more efficient alternatives to the standard Transformer has become very valuable. While many efficient Transformers and Transformer alternatives have been proposed, none provide theoretical guarantees that they are a suitable replacement for the standard Transformer. This makes it challenging to identify when to use a specific model and what directions to prioritize for further investigation. In this paper, we aim to understand the capabilities and limitations of efficient Transformers, specifically the Sparse Transformer and the Linear Transformer. We focus on their reasoning capability as exhibited by Chain-of-Thought (CoT) prompts and follow previous works to model them as Dynamic Programming (DP) problems. Our results show that while these models are expressive enough to solve general DP tasks, contrary to expectations, they require a model size that scales with the problem size. Nonetheless, we identify a class of DP problems for which these models can be more efficient than the standard Transformer. We confirm our theoretical results through experiments on representative DP tasks, adding to the understanding of efficient Transformers' practical strengths and weaknesses.
翻訳日:2024-02-22 14:31:00 公開日:2024-02-21
# 全スライド画像上の腫瘍分割:訓練かプロンプトか?

Tumor segmentation on whole slide images: training or prompting? ( http://arxiv.org/abs/2402.13932v1 )

ライセンス: Link先を確認
Huaqian Wu, Clara Br\'emond-Martin, K\'evin Bouaou, C\'edric Clouchoux(参考訳) 腫瘍の分節は癌診断における重要な課題である。 組織学におけるスライド画像全体(WSI)の膨大な次元を考えると、WSI分類のためのディープラーニングアプローチは主にパッチワイドまたはスーパーピクセルワイドレベルで機能する。 しかし、これらのソリューションは、しばしばグローバルwsi情報の取り込みに苦労し、バイナリマスクを直接生成することができない。 WSI のダウンサンプリングとセマンティックセグメンテーションの実行も可能なアプローチです。 この手法は計算効率を提供するが、解像度の低下が情報損失につながる可能性があるため、大量の注釈データを必要とする。 ビジュアルプロンプトは、モデル自体に適応するのではなく、入力空間に微妙な修正を加えることで、モデルが新しいタスクを実行できる新しいパラダイムである。 このようなアプローチは多くのコンピュータビジョンタスクで有望な結果を示している。 本稿では,3臓器に対する腫瘍分節の文脈における視覚的プロンプトの有効性について述べる。 この課題に対して訓練された古典的手法と比較して、視覚的プロンプトは、適切なプロンプト例によって、広範囲な微調整をすることなく、同等またはより良い性能を達成できることが判明した。

Tumor segmentation stands as a pivotal task in cancer diagnosis. Given the immense dimensions of whole slide images (WSI) in histology, deep learning approaches for WSI classification mainly operate at patch-wise or superpixel-wise level. However, these solutions often struggle to capture global WSI information and cannot directly generate the binary mask. Downsampling the WSI and performing semantic segmentation is another possible approach. While this method offers computational efficiency, it necessitates a large amount of annotated data since resolution reduction may lead to information loss. Visual prompting is a novel paradigm that allows the model to perform new tasks by making subtle modifications to the input space, rather than adapting the model itself. Such approach has demonstrated promising results on many computer vision tasks. In this paper, we show the efficacy of visual prompting in the context of tumor segmentation for three distinct organs. In comparison to classical methods trained for this specific task, our findings reveal that, with appropriate prompt examples, visual prompting can achieve comparable or better performance without extensive fine-tuning.
翻訳日:2024-02-22 14:30:39 公開日:2024-02-21
# 地域ガイドによる強化学習エージェントの強化

Enhancing Reinforcement Learning Agents with Local Guides ( http://arxiv.org/abs/2402.13930v1 )

ライセンス: Link先を確認
Paul Daoudi, Bogdan Robu, Christophe Prieur, Ludovic Dos Santos and Merwan Barlier(参考訳) 本稿では,ローカルガイドポリシーを強化学習エージェントに統合する問題に対処する。 そこで本研究では,この設定に既存のアルゴリズムを適用して,ノイズの多いポリシスイッチング手順に基づく新しいアルゴリズムを導入する方法について述べる。 このアプローチは、適切な近似政策評価(ape)スキームに基づいて、地域ガイドをよりよい行動へと慎重に導く摂動を提供する。 本手法は,破滅的な結果を引き起こす危険のある領域にエージェントが侵入できない安全クリティカルシステムを含む,古典的強化学習の一連の問題に対して評価した。 提案したすべての環境において,APEに基づく強化学習アルゴリズムの性能向上にこれらのポリシーを有効活用することが実証された。

This paper addresses the problem of integrating local guide policies into a Reinforcement Learning agent. For this, we show how to adapt existing algorithms to this setting before introducing a novel algorithm based on a noisy policy-switching procedure. This approach builds on a proper Approximate Policy Evaluation (APE) scheme to provide a perturbation that carefully leads the local guides towards better actions. We evaluated our method on a set of classical Reinforcement Learning problems, including safety-critical systems where the agent cannot enter some areas at the risk of triggering catastrophic consequences. In all the proposed environments, our agent proved to be efficient at leveraging those policies to improve the performance of any APE-based Reinforcement Learning algorithm, especially in its first learning stages.
翻訳日:2024-02-22 14:30:21 公開日:2024-02-21
# sdxl-lightning:プログレッシブ・アドバーサリー拡散蒸留

SDXL-Lightning: Progressive Adversarial Diffusion Distillation ( http://arxiv.org/abs/2402.13929v1 )

ライセンス: Link先を確認
Shanchuan Lin, Anran Wang, Xiao Yang(参考訳) SDXLに基づく1ステップ/2ステップ1024pxのテキスト・トゥ・イメージ生成において新しい最先端を実現する拡散蒸留法を提案する。 本手法は, プログレッシブ蒸留と逆蒸留を組み合わせることで, 品質とモードカバレッジのバランスを図る。 本稿では, 理論的解析, 識別器設計, モデル定式化, 訓練技術について論じる。 蒸留したSDXL-LightningモデルをLoRAおよびフルUNet重みとしてオープンソース化した。

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.
翻訳日:2024-02-22 14:30:08 公開日:2024-02-21
# 多様な意見からの人間の学習モデルとしての妄想的ヘッジアルゴリズム

The Delusional Hedge Algorithm as a Model of Human Learning from Diverse Opinions ( http://arxiv.org/abs/2402.13927v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Jerry Zhu, Timothy T. Rogers(参考訳) 学習の認知モデルは、イベントの特徴と真のラベルまたは結果の両方で直接的な経験を仮定することが多いが、日常的な学習の多くは、経験または基礎的な真実の結果に直接アクセスすることなく、他人の意見を聴くことから生じる。 さまざまな情報ソースから学習するための古典的なソリューションであるヘッジアルゴリズムを拡張して,このようなシナリオを信頼する意見を学ぶ方法について検討する。 我々はまず,教師なしと教師なしの両方の経験から学習可能な半教師なしヘッジと呼ばれる変種を導入する。 2つの実験において、標準的なヘッジ、妄想ヘッジ、ヒューリスティックベースラインモデルからの人間の判断と予測の整合性を検討する。 結果は,人間の学習者が情報ソースの精度だけでなく,他の信頼できる情報源との整合性も評価することを示唆する,妄想的アルゴリズムと整合したラベル付き情報とラベルなし情報の両方を効果的に組み込むことを示唆している。 この知見は多様な意見から人間の学習の理解を前進させ、対立する情報ソースの重み付けをよりよく捉えるアルゴリズムの開発に寄与する。

Whereas cognitive models of learning often assume direct experience with both the features of an event and with a true label or outcome, much of everyday learning arises from hearing the opinions of others, without direct access to either the experience or the ground truth outcome. We consider how people can learn which opinions to trust in such scenarios by extending the hedge algorithm: a classic solution for learning from diverse information sources. We first introduce a semi-supervised variant we call the delusional hedge capable of learning from both supervised and unsupervised experiences. In two experiments, we examine the alignment between human judgments and predictions from the standard hedge, the delusional hedge, and a heuristic baseline model. Results indicate that humans effectively incorporate both labeled and unlabeled information in a manner consistent with the delusional hedge algorithm -- suggesting that human learners not only gauge the accuracy of information sources but also their consistency with other reliable sources. The findings advance our understanding of human learning from diverse opinions, with implications for the development of algorithms that better capture how people learn to weigh conflicting information sources.
翻訳日:2024-02-22 14:29:59 公開日:2024-02-21
# 大規模言語モデルは、有害コンテンツを生成するためのBait-and-Switch攻撃に対して脆弱である

Large Language Models are Vulnerable to Bait-and-Switch Attacks for Generating Harmful Content ( http://arxiv.org/abs/2402.13926v1 )

ライセンス: Link先を確認
Federico Bianchi, James Zou(参考訳) 大規模言語モデル(LLMs)から生じる誤認や有害なコンテンツを生み出すリスクは、かなりの研究の対象となっているが、安全な世代でさえ、下流への影響に問題を引き起こす可能性がある。 本研究では,llmからの安全なテキストが,餌とスイッチによる攻撃によって潜在的に危険なコンテンツに容易に変換できる方法に焦点を移す。 このような攻撃では、ユーザはまず、安全な質問をllmに促し、次いで簡単な find-and-replace post-hoc technique を使って出力を有害な物語に操作する。 毒性物質の生成におけるこのアプローチの有効性は、LCMの信頼性の高い安全ガードレールを開発する上で大きな課題となっている。 特に,LLM出力の安全性に重点を置くことは不十分であり,ポストホック変換も検討する必要があることを強調する。

The risks derived from large language models (LLMs) generating deceptive and damaging content have been the subject of considerable research, but even safe generations can lead to problematic downstream impacts. In our study, we shift the focus to how even safe text coming from LLMs can be easily turned into potentially dangerous content through Bait-and-Switch attacks. In such attacks, the user first prompts LLMs with safe questions and then employs a simple find-and-replace post-hoc technique to manipulate the outputs into harmful narratives. The alarming efficacy of this approach in generating toxic content highlights a significant challenge in developing reliable safety guardrails for LLMs. In particular, we stress that focusing on the safety of the verbatim LLM outputs is insufficient and that we also need to consider post-hoc transformations.
翻訳日:2024-02-22 14:29:38 公開日:2024-02-21
# UMAT4COMSOL:COMSOL用のUMATサブルーチンラッパー

UMAT4COMSOL: An Abaqus user material (UMAT) subroutine wrapper for COMSOL ( http://arxiv.org/abs/2402.13925v1 )

ライセンス: Link先を確認
S. Lucarini, E. Mart\'inez-Pa\~neda(参考訳) 我々は,Abaqusユーザマテリアルサブルーチン(UMAT)をCOMSOLマルチフィジカルソフトウェアにおける外部マテリアルライブラリとして使用できるラッパーを提案する。 C言語で記述されたラッパーはCOMSOLの外部物質サブルーチン入力を変換し、一貫した可変変換によりFortran符号化されたAbaqus UMAT入力と出力に変換する。 これは、固体力学コミュニティが過去数十年にわたって開発してきた先進的な物質モデルを用いた、結合した多物理学研究の実施を著しく促進する。 我々は, 弾塑性, 超弾性, 結晶塑性の領域で数値実験を行い, 新たな枠組み umat4comsol の可能性を示す。 ソースコード、詳細なドキュメント、サンプルチュートリアルはwww.empaneda.com/codesから無料でダウンロードできる。

We present a wrapper that allows Abaqus user material subroutines (UMATs) to be used as an External Material library in the software COMSOL Multiphysics. The wrapper, written in C language, transforms COMSOL's external material subroutine inputs and outputs into Fortran-coded Abaqus UMAT inputs and outputs, by means of a consistent variable transformation. This significantly facilitates conducting coupled, multi-physics studies employing the advanced material models that the solid mechanics community has developed over the past decades. We exemplify the potential of our new framework, UMAT4COMSOL, by conducting numerical experiments in the areas of elastoplasticity, hyperelasticity and crystal plasticity. The source code, detailed documentation and example tutorials are made freely available to download at www.empaneda.com/codes.
翻訳日:2024-02-22 14:29:23 公開日:2024-02-21
# SynFAC-EDIT : 臨床要約のための合成模倣編集フィードバック

SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization ( http://arxiv.org/abs/2402.13919v1 )

ライセンス: Link先を確認
Prakamya Mishra, Zonghai Yao, Parth Vashisht, Feiyun Ouyang, Beining Wang, Vidhi Dhaval Mody, Hong Yu(参考訳) GPTやLlamaのような大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、実際的不正確さに苦慮している。 そこで本研究では,GPT-3.5とGPT-4を併用して,臨床メモ要約における現実的整合性向上を目的とした高品質なフィードバックを生成する,革新的なパイプラインを提案する。 医療従事者が追加のアノテーションを必要とせずにaiシステム出力を洗練する実践シナリオを反映した,編集フィードバックを中心に研究を行った。 医学ライセンス試験(英語版)のような様々な臨床NLPタスクにおけるGPTの専門知識が証明されているにもかかわらず、より弱いLMやLSMの生成品質を改善するために専門家レベルの編集フィードバックを提供する能力について精査されている。 この研究は、臨床NLPにおけるGPTの高度な能力を活用し、専門家レベルの編集フィードバックを提供する。 GPT編集フィードバックに基づく2つの異なるアライメントアルゴリズム(DPOとSALT)を使用することで、幻覚を減らし、医学的事実と密接に整合し、AI生成コンテンツと事実的精度の差を狭めることを目指している。 これは臨床事実の整合性を高めるためのGPT編集の可能性を強調している。

Large Language Models (LLMs) such as GPT and Llama have demonstrated significant achievements in summarization tasks but struggle with factual inaccuracies, a critical issue in clinical NLP applications where errors could lead to serious consequences. To counter the high costs and limited availability of expert-annotated data for factual alignment, this study introduces an innovative pipeline that utilizes GPT-3.5 and GPT-4 to generate high-quality feedback aimed at enhancing factual consistency in clinical note summarization. Our research primarily focuses on edit feedback, mirroring the practical scenario in which medical professionals refine AI system outputs without the need for additional annotations. Despite GPT's proven expertise in various clinical NLP tasks, such as the Medical Licensing Examination, there is scant research on its capacity to deliver expert-level edit feedback for improving weaker LMs or LLMs generation quality. This work leverages GPT's advanced capabilities in clinical NLP to offer expert-level edit feedback. Through the use of two distinct alignment algorithms (DPO and SALT) based on GPT edit feedback, our goal is to reduce hallucinations and align closely with medical facts, endeavoring to narrow the divide between AI-generated content and factual accuracy. This highlights the substantial potential of GPT edits in enhancing the alignment of clinical factuality.
翻訳日:2024-02-22 14:29:06 公開日:2024-02-21
# BenchCloudVision: リモートセンシング画像におけるクラウド検出とセグメンテーションのためのディープラーニングアプローチのベンチマーク分析

BenchCloudVision: A Benchmark Analysis of Deep Learning Approaches for Cloud Detection and Segmentation in Remote Sensing Imagery ( http://arxiv.org/abs/2402.13918v1 )

ライセンス: Link先を確認
Loddo Fabio, Dario Piga, Michelucci Umberto, El Ghazouali Safouane(参考訳) 光センサーを搭載した衛星は高解像度の画像を撮影し、様々な環境現象に関する貴重な洞察を提供する。 近年、多様な景観における水の検出から山や地形の区分まで、リモートセンシングにおけるいくつかの課題に焦点をあてる研究が急増している。 衛星画像解析の精度と効率を高めるための研究が進行中である。 特に, 環境モニタリング, 資源管理, 災害対応等において重要となる, 正確な水域検出, 雪と雲の検出手法の開発が注目されている。 本稿では,リモートセンシング画像からのクラウドセグメンテーションに焦点をあてる。 光センサーベースのアプリケーションに雲が存在するため、正確なリモートセンシングデータ分析は困難である。 アプリケーションや研究などの成果物の品質は、リモートセンシングデータ処理パイプラインにおいて重要な役割を果たすクラウド検出によって直接影響を受ける。 本稿では,クラウド識別に適用された7つの最先端意味セグメンテーションと検出アルゴリズムについて検討し,そのアーキテクチャ的アプローチを評価し,最もパフォーマンスの高いものを特定するためのベンチマーク分析を行った。 モデルの適応性を高めるために、トレーニング中に使用される画像の種類とスペクトル帯域の量を含む重要な要素を解析する。 さらに、本研究では、RGBとRGBN-IRの組み合わせを含む少数のスペクトルバンドのみを用いて、クラウドセグメンテーションを実行できる機械学習アルゴリズムの開発を試みる。 様々なアプリケーションやユーザシナリオに対するモデルの柔軟性は、sentinel-2とlandsat-8の画像からデータセットとして評価される。 このベンチマークは、このgithubリンクの材料を使って再現することができる。

Satellites equipped with optical sensors capture high-resolution imagery, providing valuable insights into various environmental phenomena. In recent years, there has been a surge of research focused on addressing some challenges in remote sensing, ranging from water detection in diverse landscapes to the segmentation of mountainous and terrains. Ongoing investigations goals to enhance the precision and efficiency of satellite imagery analysis. Especially, there is a growing emphasis on developing methodologies for accurate water body detection, snow and clouds, important for environmental monitoring, resource management, and disaster response. Within this context, this paper focus on the cloud segmentation from remote sensing imagery. Accurate remote sensing data analysis can be challenging due to the presence of clouds in optical sensor-based applications. The quality of resulting products such as applications and research is directly impacted by cloud detection, which plays a key role in the remote sensing data processing pipeline. This paper examines seven cutting-edge semantic segmentation and detection algorithms applied to clouds identification, conducting a benchmark analysis to evaluate their architectural approaches and identify the most performing ones. To increase the model's adaptability, critical elements including the type of imagery and the amount of spectral bands used during training are analyzed. Additionally, this research tries to produce machine learning algorithms that can perform cloud segmentation using only a few spectral bands, including RGB and RGBN-IR combinations. The model's flexibility for a variety of applications and user scenarios is assessed by using imagery from Sentinel-2 and Landsat-8 as datasets. This benchmark can be reproduced using the material from this github link: \url{https://github.com/toelt-llc/cloud\_segmentation\_comparative}.
翻訳日:2024-02-22 14:28:42 公開日:2024-02-21
# llm翻訳において言語的特徴と言語は重要なのか?

What Linguistic Features and Languages are Important in LLM Translation? ( http://arxiv.org/abs/2402.13917v1 )

ライセンス: Link先を確認
Ryandito Diandaru, Lucky Susanto, Zilu Tang, Ayu Purwarianti, Derry Wijaya(参考訳) 大規模言語モデル(LLM)は、機械翻訳を含む複数のタスクにまたがる強力な能力を示す。 本研究は,llama2の機械翻訳能力の評価と,その学習データにおける言語依存度について検討する。 我々の実験は、7B Llama2モデルがこれまでに見た全ての言語に対して10 BLEUスコア以上の結果が得られることを示した。 これらの見当たらない言語に対するほとんどの利益は、チャットバージョンの使用やショット数の追加と比べて、モデルスケールで最も多く観察される。 さらに, 言語間距離分析の結果, 構文的類似性が翻訳品質を決定する主要な言語要因であるとは限らないことがわかった。 興味深いことに、特定の状況下では、一部の言語は、英語よりもトレーニングデータが少ないにもかかわらず、英語に匹敵する強い相関関係を示した。 ここでの発見は、LLMの現在の展望に新たな視点を与え、英語以外の言語を中心としたLLMが、多言語モデルのより効果的な基盤を提供する可能性を高める。

Large Language Models (LLMs) demonstrate strong capability across multiple tasks, including machine translation. Our study focuses on evaluating Llama2's machine translation capabilities and exploring how translation depends on languages in its training data. Our experiments show that the 7B Llama2 model yields above 10 BLEU score for all languages it has seen, but not always for languages it has not seen. Most gains for those unseen languages are observed the most with the model scale compared to using chat versions or adding shot count. Furthermore, our linguistic distance analysis reveals that syntactic similarity is not always the primary linguistic factor in determining translation quality. Interestingly, we discovered that under specific circumstances, some languages, despite having significantly less training data than English, exhibit strong correlations comparable to English. Our discoveries here give new perspectives for the current landscape of LLMs, raising the possibility that LLMs centered around languages other than English may offer a more effective foundation for a multilingual model.
翻訳日:2024-02-22 14:28:16 公開日:2024-02-21
# SCADAデータと連続学習による風力予測のバイアス補正

Bias correction of wind power forecasts with SCADA data and continuous learning ( http://arxiv.org/abs/2402.13916v1 )

ライセンス: Link先を確認
Stefan Jonas, Kevin Winter, Bernhard Brodbeck, Angela Meyer(参考訳) 風力エネルギーは再生可能エネルギー源への移行に重要な役割を果たしている。 しかし、風の不確実性や変動性は、その潜在能力と必要な風力容量の増大を妨げる可能性がある。 これらの課題を軽減するために、電力管理、エネルギー取引、メンテナンススケジューリングの応用に風力発電予測手法が用いられている。 本研究では,4つの機械学習に基づく風力予測モデルを提示し,評価し,比較する。 数値気象予測(NWP)モデルから抽出した48時間予測の補正と改善を行った。 モデルは、65の風力タービンからなる風力公園のデータセットに基づいて評価される。 予測誤差と平均バイアスの最良の改善は畳み込みニューラルネットワークによって達成され、平均NRMSEは22%まで減少し、平均バイアスの顕著な減少と相まって、補正されていないNWP予測を用いた強いバイアス付きベースラインモデルから35%の低下が得られた。 さらに,ニューラルネットワークアーキテクチャの変更は予測性能に影響を与える小さな役割を担っており,今後の研究はモデルパイプラインの変更を調査すべきであることが示唆された。 さらに,新たなデータが利用可能になった場合の予測性能の向上が期待できる継続的学習戦略を導入する。

Wind energy plays a critical role in the transition towards renewable energy sources. However, the uncertainty and variability of wind can impede its full potential and the necessary growth of wind power capacity. To mitigate these challenges, wind power forecasting methods are employed for applications in power management, energy trading, or maintenance scheduling. In this work, we present, evaluate, and compare four machine learning-based wind power forecasting models. Our models correct and improve 48-hour forecasts extracted from a numerical weather prediction (NWP) model. The models are evaluated on datasets from a wind park comprising 65 wind turbines. The best improvement in forecasting error and mean bias was achieved by a convolutional neural network, reducing the average NRMSE down to 22%, coupled with a significant reduction in mean bias, compared to a NRMSE of 35% from the strongly biased baseline model using uncorrected NWP forecasts. Our findings further indicate that changes to neural network architectures play a minor role in affecting the forecasting performance, and that future research should rather investigate changes in the model pipeline. Moreover, we introduce a continuous learning strategy, which is shown to achieve the highest forecasting performance improvements when new data is made available.
翻訳日:2024-02-22 14:27:58 公開日:2024-02-21
# 正当化しないことを問う

Explain to Question not to Justify ( http://arxiv.org/abs/2402.13914v1 )

ライセンス: Link先を確認
Przemyslaw Biecek, Wojciech Samek(参考訳) 説明可能な人工知能(XAI)は若いが非常に有望な研究分野である。 残念ながら、この分野の進歩は、現在、ばらばらで互換性のない目標によって減速している。 本稿では,XAI領域内で絡み合った様々なスレッドを,人間/価値指向の説明(BLUE XAI)とモデル/妥当性指向の説明(RED XAI)の相補的な2つの文化に分けた。 また、RED XAIの領域は、現在未調査であり、AIシステムの安全性を確保するために必要な重要な研究の機会と可能性を隠蔽しているとも主張する。 本論文は,この分野において有望な課題を提示することで結論づける。

Explainable Artificial Intelligence (XAI) is a young but very promising field of research. Unfortunately, the progress in this field is currently slowed down by divergent and incompatible goals. In this paper, we separate various threads tangled within the area of XAI into two complementary cultures of human/value-oriented explanations (BLUE XAI) and model/validation-oriented explanations (RED XAI). We also argue that the area of RED XAI is currently under-explored and hides great opportunities and potential for important research necessary to ensure the safety of AI systems. We conclude this paper by presenting promising challenges in this area.
翻訳日:2024-02-22 14:27:39 公開日:2024-02-21
# FedADMM-InSa: フェデレートラーニングのための非現実的で自己適応型ADMM

FedADMM-InSa: An Inexact and Self-Adaptive ADMM for Federated Learning ( http://arxiv.org/abs/2402.13989v1 )

ライセンス: Link先を確認
Yongcun Song, Ziqi Wang, Enrique Zuazua(参考訳) federated learning(fl)は、プライバシを維持しながら分散データから学習するための有望なフレームワークである。 効率的なflアルゴリズムの開発は、異種データやシステム、限られた通信能力、制約のある局所計算資源など、様々な課題に直面する。 最近開発されたFedADMM法は、データとシステムの不均一性の両方に優れたレジリエンスを示す。 しかし、ハイパーパラメータを慎重に調整しなければ、パフォーマンスの劣化に悩まされる。 この問題に対処するため,FedADMM-InSaと呼ばれる不正確な自己適応型FedADMMアルゴリズムを提案する。 まず、クライアントのローカル更新に対する不正確な基準を設計し、ローカルトレーニングの精度を実証的に設定する必要をなくす。 この不正確性基準は、その特異な条件に基づいて各クライアントによって独立に評価され、局所的な計算コストを低減し、望ましくないストラグル効果を緩和することができる。 結果の不正確なADMMの収束は、強い凸損失関数の仮定の下で証明される。 さらに,各クライアントのペナルティパラメータを動的に調整し,各クライアントに対する経験的ペナルティパラメータ選択の必要性を軽減し,アルゴリズムの頑健性を高める自己適応スキームを提案する。 合成データと実世界のデータセットの両方について広範な数値実験を行った。 いくつかの数値実験で検証されているように、提案アルゴリズムはクライアントの局所的な計算負荷を大幅に削減し、また、バニラFedADMMと比較して学習プロセスを高速化することができる。

Federated learning (FL) is a promising framework for learning from distributed data while maintaining privacy. The development of efficient FL algorithms encounters various challenges, including heterogeneous data and systems, limited communication capacities, and constrained local computational resources. Recently developed FedADMM methods show great resilience to both data and system heterogeneity. However, they still suffer from performance deterioration if the hyperparameters are not carefully tuned. To address this issue, we propose an inexact and self-adaptive FedADMM algorithm, termed FedADMM-InSa. First, we design an inexactness criterion for the clients' local updates to eliminate the need for empirically setting the local training accuracy. This inexactness criterion can be assessed by each client independently based on its unique condition, thereby reducing the local computational cost and mitigating the undesirable straggle effect. The convergence of the resulting inexact ADMM is proved under the assumption of strongly convex loss functions. Additionally, we present a self-adaptive scheme that dynamically adjusts each client's penalty parameter, enhancing algorithm robustness by mitigating the need for empirical penalty parameter choices for each client. Extensive numerical experiments on both synthetic and real-world datasets are conducted. As validated by some numerical tests, our proposed algorithm can reduce the clients' local computational load significantly and also accelerate the learning process compared to the vanilla FedADMM.
翻訳日:2024-02-22 14:21:29 公開日:2024-02-21
# グラフニューラルネットワークの単純かつ比較的効果的な防御

A Simple and Yet Fairly Effective Defense for Graph Neural Networks ( http://arxiv.org/abs/2402.13987v1 )

ライセンス: Link先を確認
Sofiane Ennadir, Yassine Abbahaddou, Johannes F. Lutzeyer, Michalis Vazirgiannis, Henrik Bostr\"om(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ上での機械学習の主要なアプローチとして登場した。 しかし、GNNの小さな敵の摂動に対する脆弱性が懸念されている。 このような摂動に対する既存の防御法は、高い時間の複雑さに苦しめられ、クリーングラフにおけるモデルのパフォーマンスに悪影響を及ぼす可能性がある。 これらの課題に対処するため,本論文では,ノイズをモデルアーキテクチャに組み込む新しい防御手法であるbuffergnnsを提案する。 我々は,ノイズ注入とGNNロバスト性向上の理論的関係を確立し,提案手法の有効性を強調した。 我々はさらに、ノード分類タスクにおいて、GCNとGINの2つの一般的なGNNに着目し、理論的な結果を検証するための広範な実験的な評価を行う。 以上の結果から,NoisyGNNは既存手法よりも優れた,あるいは同等の防御性能を達成し,追加時間の複雑さを最小化できることがわかった。 NoisyGNNのアプローチはモデルに依存しないため、異なるGNNアーキテクチャと統合できる。 既存の防御技術とNoisyGNNアプローチの併用により,対側防御効果はさらに改善した。 私たちのコードは、https://github.com/Sennadir/NoisyGNN.comで公開されています。

Graph Neural Networks (GNNs) have emerged as the dominant approach for machine learning on graph-structured data. However, concerns have arisen regarding the vulnerability of GNNs to small adversarial perturbations. Existing defense methods against such perturbations suffer from high time complexity and can negatively impact the model's performance on clean graphs. To address these challenges, this paper introduces NoisyGNNs, a novel defense method that incorporates noise into the underlying model's architecture. We establish a theoretical connection between noise injection and the enhancement of GNN robustness, highlighting the effectiveness of our approach. We further conduct extensive empirical evaluations on the node classification task to validate our theoretical findings, focusing on two popular GNNs: the GCN and GIN. The results demonstrate that NoisyGNN achieves superior or comparable defense performance to existing methods while minimizing added time complexity. The NoisyGNN approach is model-agnostic, allowing it to be integrated with different GNN architectures. Successful combinations of our NoisyGNN approach with existing defense techniques demonstrate even further improved adversarial defense results. Our code is publicly available at: https://github.com/Sennadir/NoisyGNN.
翻訳日:2024-02-22 14:21:08 公開日:2024-02-21
# ボルツマン推定器を用いたニューラルネットワーク間ポテンシャルの安定性を考慮した学習

Stability-Aware Training of Neural Network Interatomic Potentials with Differentiable Boltzmann Estimators ( http://arxiv.org/abs/2402.13984v1 )

ライセンス: Link先を確認
Sanjeev Raja, Ishan Amin, Fabian Pedregosa, Aditi S. Krishnapriyan(参考訳) ニューラルネットワーク間ポテンシャル(NNIP)は、分子動力学(MD)シミュレーションのためのab-initio法に代わる魅力的な方法である。 しかし、非物理的状態をサンプリングする不安定なシミュレーションを生成でき、より長い時間スケールで発生する現象のモデル化に有用性が制限される。 これらの課題に対処するために,量子力学的エネルギーと力による従来の教師付きトレーニングと参照系観測装置を組み合わせたマルチモーダルトレーニング手順であるstable(stable)トレーニングを行い,安定かつ正確なnnipsを生成する。 安定トレーニングは、不安定な領域を求めるためにmdシミュレーションを繰り返し実行し、参照観測可能な監督によって不安定性を修正する。 トレーニング手順はボルツマン推定器(boltzmann estimator)によって実現されており、ニューラルネットワークをシステム観測に訓練するのに必要な勾配の効率的な計算を可能にし、グローバルとローカルの両方の不安定性を検出することができる。 我々は, 有機分子, テトラペプチド, 凝縮相系および3つの近代NNIPアーキテクチャを用いた方法論を実証した。 3つのケースすべてにおいて、StABlEで訓練されたモデルは、シミュレーションの安定性と構造および動的可観測物の回復において大幅に改善された。 場合によっては、安定したトレーニングされたモデルは、データセットでトレーニングされた従来のモデルよりも50倍大きい。 NNIPアーキテクチャやシステムに適用可能な一般的なフレームワークとして、StABlE Trainingは、特に大規模な参照データセットがない場合に、安定的で正確なNNIPをトレーニングするための強力なツールである。

Neural network interatomic potentials (NNIPs) are an attractive alternative to ab-initio methods for molecular dynamics (MD) simulations. However, they can produce unstable simulations which sample unphysical states, limiting their usefulness for modeling phenomena occurring over longer timescales. To address these challenges, we present Stability-Aware Boltzmann Estimator (StABlE) Training, a multi-modal training procedure which combines conventional supervised training from quantum-mechanical energies and forces with reference system observables, to produce stable and accurate NNIPs. StABlE Training iteratively runs MD simulations to seek out unstable regions, and corrects the instabilities via supervision with a reference observable. The training procedure is enabled by the Boltzmann Estimator, which allows efficient computation of gradients required to train neural networks to system observables, and can detect both global and local instabilities. We demonstrate our methodology across organic molecules, tetrapeptides, and condensed phase systems, along with using three modern NNIP architectures. In all three cases, StABlE-trained models achieve significant improvements in simulation stability and recovery of structural and dynamic observables. In some cases, StABlE-trained models outperform conventional models trained on datasets 50 times larger. As a general framework applicable across NNIP architectures and systems, StABlE Training is a powerful tool for training stable and accurate NNIPs, particularly in the absence of large reference datasets.
翻訳日:2024-02-22 14:20:50 公開日:2024-02-21
# 幾何誘起波動関数の崩壊

Geometry-induced wavefunction collapse ( http://arxiv.org/abs/2402.13980v1 )

ライセンス: Link先を確認
Li-Li Ye, Chen-Di Han, Liang Huang, and Ying-Cheng Lai(参考訳) 量子粒子が湾曲した空間に移動すると、幾何学的ポテンシャルが生じる。 広範な理論研究の長い歴史にもかかわらず、幾何学的ポテンシャルを実験的に観察することは困難である。 このような幾何学的ポテンシャルの物理的に観測可能な結果は何でしょう? 歪んだ円錐面上でシュロディンガー方程式を解くと、クーロンの不純物に関する原子崩壊に関連した準共鳴状態と強い類似性を持つ量子散乱状態のクラスが発見される。 このような崩壊状態の特徴的な特徴は、境界状態から散乱を分離するゼロエネルギー点に関する状態の局所密度(LDOS)の無限振動である。 曲線(リーマン)空間におけるそのような状態の出現は、相対論的量子機構もクーロンの不純物も必要とせず、角運動量もゼロであり、その起源は純粋に幾何学的である。 ゼロと有限の角運動量状態と対応する古典的絵の両方に対するldoの挙動の詳細な比較分析を通じて、これらの状態の崩壊性を確立する。 幾何誘起崩壊状態を実現するための潜在的実験的スキームを調停する。 我々の研究は、幾何学的ポテンシャルと原子崩壊の本質的な関係を明らかにするだけでなく、物理学の様々なサブフィールドから生じる幾何学的ポテンシャルを実験的に観察し特徴付ける方法も提供する。 例えば、ナノサイエンスやナノテクノロジーでは、曲面幾何がますます一般的になっている。 ナノデバイスの設計・開発において,波動関数の崩壊は重要な要素であると考えられた。

When a quantum particle moves in a curved space, a geometric potential can arise. In spite of a long history of extensive theoretical studies, to experimentally observe the geometric potential remains to be a challenge. What are the physically observable consequences of such a geometric potential? Solving the Schrodinger equation on a truncated conic surface, we uncover a class of quantum scattering states that bear a strong resemblance with the quasi-resonant states associated with atomic collapse about a Coulomb impurity, a remarkable quantum phenomenon in which an infinite number of quasi-resonant states emerge. A characteristic defining feature of such collapse states is the infinite oscillations of the local density of states (LDOS) about the zero energy point separating the scattering from the bound states. The emergence of such states in the curved (Riemannian) space requires neither a relativistic quantum mechanism nor any Coulomb impurity: they have zero angular momentum and their origin is purely geometrical - henceforth the term geometry-induced wavefunction collapse. We establish the collapsing nature of these states through a detailed comparative analysis of the behavior of the LDOS for both the zero and finite angular-momentum states as well as the corresponding classical picture. Potential experimental schemes to realize the geometry-induced collapse states are articulated. Not only has our study uncovered an intrinsic connection between the geometric potential and atomic collapse, it also provides a method to experimentally observe and characterize geometric potentials arising from different subfields of physics. For example, in nanoscience and nanotechnology, curved geometry has become increasingly common. Our finding suggests that wavefunction collapse should be an important factor of consideration in designing and developing nanodevices.
翻訳日:2024-02-22 14:20:21 公開日:2024-02-21
# 気候応用のための深層学習におけるアーキテクチャ選択の重要性

The Importance of Architecture Choice in Deep Learning for Climate Applications ( http://arxiv.org/abs/2402.13979v1 )

ライセンス: Link先を確認
Simon Dr\"ager and Maike Sonnewald(参考訳) 機械学習は気候科学の応用において普及するツールとなっている。 しかし、現在のモデルは温室効果ガス排出の人為的変化によって引き起こされる非定常性に対処できず、提案された予測の不確かさを日常的に定量化しない。 本稿では,これらの地域への温水輸送によって,ヨーロッパと米国東海岸の気候に重要な意味を持つアトランティック・メリディショナル・オーバーターン循環(AMOC)をモデル化し,急激な崩壊の可能性を秘めている。 任意の時間スケールで任意に極端な気候シナリオを生成し、ニューラルネットワークを使って予測します。 我々の分析によると、AMOCは様々な気候シナリオの下でニューラルネットワークを用いて予測可能である。 さらなる実験により、MLPとDeep Ensemblesは自己相関による進行を模倣するのではなく、AMOCの物理を学習できることが明らかになった。 定量化の不確実性により、AMOCの崩壊の臨界点前にある「スパイク」の興味深いパターンは、今世紀中にAMOCの崩壊を予測した以前の分析に疑問を投げかけている。 その結果,ベイズ型ニューラルネットワークは,より密集したアーキテクチャに比べて性能が低く,気候予測などの非定常シナリオにニューラルネットワークを適用する際に注意が必要であることがわかった。 さらに,大規模NNモデルでは,ニューラルネットワークの捕捉が困難であるため,地球系の力学を正確にモデル化することが困難であり,非定常気候シナリオにうまく適用できる可能性が示唆された。

Machine Learning has become a pervasive tool in climate science applications. However, current models fail to address nonstationarity induced by anthropogenic alterations in greenhouse emissions and do not routinely quantify the uncertainty of proposed projections. In this paper, we model the Atlantic Meridional Overturning Circulation (AMOC) which is of major importance to climate in Europe and the US East Coast by transporting warm water to these regions, and has the potential for abrupt collapse. We can generate arbitrarily extreme climate scenarios through arbitrary time scales which we then predict using neural networks. Our analysis shows that the AMOC is predictable using neural networks under a diverse set of climate scenarios. Further experiments reveal that MLPs and Deep Ensembles can learn the physics of the AMOC instead of imitating its progression through autocorrelation. With quantified uncertainty, an intriguing pattern of "spikes" before critical points of collapse in the AMOC casts doubt on previous analyses that predicted an AMOC collapse within this century. Our results show that Bayesian Neural Networks perform poorly compared to more dense architectures and care should be taken when applying neural networks to nonstationary scenarios such as climate projections. Further, our results highlight that big NN models might have difficulty in modeling global Earth System dynamics accurately and be successfully applied in nonstationary climate scenarios due to the physics being challenging for neural networks to capture.
翻訳日:2024-02-22 14:19:53 公開日:2024-02-21
# スケーラブルな推薦のための線形時間グラフニューラルネットワーク

Linear-Time Graph Neural Networks for Scalable Recommendations ( http://arxiv.org/abs/2402.13973v1 )

ライセンス: Link先を確認
Jiahao Zhang, Rui Xue, Wenqi Fan, Xin Xu, Qing Li, Jian Pei, Xiaorui Liu(参考訳) 情報爆発の時代において、レコメンデーションシステムはユーザにパーソナライズされたレコメンデーションを提供するための重要なツールである。 レコメンダシステムの鍵は、以前のユーザ・テーマ間のインタラクションに基づいて、ユーザの将来の振る舞いを予測することである。 ユーザ・テーマ間インタラクションデータにおける高次コネクティビティの強い表現力から,近年では,レコメンダシステムの予測性能向上にグラフニューラルネットワーク(gnns)を活用することへの関心が高まっている。 それでも、古典的マトリックスファクタライゼーション(MF)とディープニューラルネットワーク(DNN)アプローチは、スケーラビリティのアドバンテージのため、現実の大規模レコメンデータシステムにおいて重要な役割を果たす。 GNNアクセラレーションソリューションが存在するにもかかわらず、GNNベースのレコメンダシステムは従来のMFやDNNの手法と同じくらい効率的にスケールできるのかという疑問が残る。 本稿では,Linear-Time Graph Neural Network(LTGNN)を提案し,従来のMF手法と同等のスケーラビリティを実現するとともに,GNNの強力な表現性を維持しながら予測精度を向上させる。 提案アルゴリズムの有効性と拡張性を検証するため, 大規模な実験とアブレーション実験を行った。 PyTorchに基づく実装が利用可能です。

In an era of information explosion, recommender systems are vital tools to deliver personalized recommendations for users. The key of recommender systems is to forecast users' future behaviors based on previous user-item interactions. Due to their strong expressive power of capturing high-order connectivities in user-item interaction data, recent years have witnessed a rising interest in leveraging Graph Neural Networks (GNNs) to boost the prediction performance of recommender systems. Nonetheless, classic Matrix Factorization (MF) and Deep Neural Network (DNN) approaches still play an important role in real-world large-scale recommender systems due to their scalability advantages. Despite the existence of GNN-acceleration solutions, it remains an open question whether GNN-based recommender systems can scale as efficiently as classic MF and DNN methods. In this paper, we propose a Linear-Time Graph Neural Network (LTGNN) to scale up GNN-based recommender systems to achieve comparable scalability as classic MF approaches while maintaining GNNs' powerful expressiveness for superior prediction accuracy. Extensive experiments and ablation studies are presented to validate the effectiveness and scalability of the proposed algorithm. Our implementation based on PyTorch is available.
翻訳日:2024-02-22 14:19:28 公開日:2024-02-21
# 医療用多言語言語モデルの構築に向けて

Towards Building Multilingual Language Model for Medicine ( http://arxiv.org/abs/2402.13963v1 )

ライセンス: Link先を確認
Pengcheng Qiu, Chaoyi Wu, Xiaoman Zhang, Weixiong Lin, Haicheng Wang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では,様々な地域から広く,言語的に多様なオーディエンスが利用できる,オープンソースの医学用多言語言語モデルの開発を目指している。 まず,マルチリンガルな医学的適応のために,MMedCと呼ばれる6つの主要言語を含む約25.5Bトークンを含む新しい多言語医療コーパスを構築し,既存のLLMの自己回帰訓練を可能にする。 second, to monitor the development of multilingual LLMs in medicine, we propose a new multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; third, we have assessed a number of popular, opensource large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC, as a result, our final model, termed as MMedLM 2, with only 7B parameters, achieves superior performance compared to all other open-source models, even rivaling GPT-4 on MMedBench. コード、モデルウェイト、データセットを含むリソースを一般公開する予定です。

In this paper, we aim to develop an open-source, multilingual language model for medicine, that the benefits a wider, linguistically diverse audience from different regions. In general, we present the contribution from the following aspects: first, for multilingual medical-specific adaptation, we construct a new multilingual medical corpus, that contains approximately 25.5B tokens encompassing 6 main languages, termed as MMedC, that enables auto-regressive training for existing general LLMs. second, to monitor the development of multilingual LLMs in medicine, we propose a new multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; third, we have assessed a number of popular, opensource large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC, as a result, our final model, termed as MMedLM 2, with only 7B parameters, achieves superior performance compared to all other open-source models, even rivaling GPT-4 on MMedBench. We will make the resources publicly available, including code, model weights, and datasets.
翻訳日:2024-02-22 14:19:09 公開日:2024-02-21
# 低深さ量子回路と高精度化による化学系の基底状態エネルギー評価

Evaluating Ground State Energies of Chemical Systems with Low-Depth Quantum Circuits and High Accuracy ( http://arxiv.org/abs/2402.13960v1 )

ライセンス: Link先を確認
Shuo Sun, Chandan Kumar, Kevin Shen, Elvira Shishenina and Christian B. Mendl(参考訳) 電子構造問題の解法は、量子コンピューティングの最も有望な応用の1つと考えられている。 しかし、ノイズ中間スケール量子(NISQ)時代の量子ビットのコヒーレンス時間による制限や、初期のフォールトトレラント量子デバイスの能力により、低深さ回路でアルゴリズムを設計することが不可欠である。 本研究では,通常の$n+2m$ パラメータではなく$n$ パラメータの最適化を要求する qubit coupled cluster (qcc) に基づく拡張変分量子固有ソルバ (vqe) ansatz を開発し,$n$ は pauli 文字列時間発展ゲート $e^{-itp}$,$m$ は関連する qubit の数である。 そこで本研究では,cas(2,2), (4,4) および (6,6) を用いて, qcc ansatz, uccsd (unitary coupled cluster single double) ansatz, canonical ccsd 法をアクティブスペースソルバとして評価し, casci 法との比較を行った。 最後に,IBM KolkataとQuantinuum H1-1の2つの異なる量子ハードウェア上で,拡張QCCアンサッツの評価を行った。

Solving electronic structure problems is considered one of the most promising applications of quantum computing. However, due to limitations imposed by the coherence time of qubits in the Noisy Intermediate Scale Quantum (NISQ) era or the capabilities of early fault-tolerant quantum devices, it is vital to design algorithms with low-depth circuits. In this work, we develop an enhanced Variational Quantum Eigensolver (VQE) ansatz based on the Qubit Coupled Cluster (QCC) approach, which demands optimization over only $n$ parameters rather than the usual $n+2m$ parameters, where $n$ represents the number of Pauli string time evolution gates $e^{-itP}$, and $m$ is the number of qubits involved. We evaluate the ground state energies of $\mathrm{O_3}$, $\mathrm{Li_4}$, and $\mathrm{Cr_2}$, using CAS(2,2), (4,4) and (6,6) respectively in conjunction with our enhanced QCC ansatz, UCCSD (Unitary Coupled Cluster Single Double) ansatz, and canonical CCSD method as the active space solver, and compare with CASCI results. Finally, we assess our enhanced QCC ansatz on two distinct quantum hardware, IBM Kolkata and Quantinuum H1-1.
翻訳日:2024-02-22 14:18:54 公開日:2024-02-21
# フラグ付き重み最適化によるフォールトトレラントカラーコード量子コンピューティングのしきい値改善

Improving threshold for fault-tolerant color code quantum computing by flagged weight optimization ( http://arxiv.org/abs/2402.13958v1 )

ライセンス: Link先を確認
Yugo Takada, Keisuke Fujii(参考訳) カラーコードは、全てのクリフォードゲートを横断的に実装できるという点で、表面符号よりも有利であるため、有望な量子誤り訂正(QEC)符号である。 しかし、回路レベルの雑音下でのカラーコードの閾値は、主に高重安定化器発生器の測定が回路深さの増大を引き起こすため、比較的低いため、かなりの誤差が生じる。 これによりカラーコードは最善の候補ではない。 本稿では,フラグ量子ビットを用いたデコーダの重み付けを最適化し,cat状態を用いた回路深度を低減し,誤差の影響を抑制する手法を提案する。 フラグ量子ビットの測定結果に基づいて条件誤差確率に基づいて重みを設定した。 数値シミュレーションでは、回路レベルの雑音下での(4.8.8)カラーコードの閾値を0.14%から0.27%に改善し、整数プログラミングデコーダを用いて計算する。 さらに, (6.6.6) 色符号では, 回路レベルのしきい値が約0.36%となり, 同一ノイズモデルを用いた先行研究の最高値とほぼ同値となった。 どちらの場合も、物理的エラー率の低い論理エラー率は、各安定化器の測定に1つのアンシラキュービットを使用する従来の方法よりもほぼ1桁低い。 この方法は他の重みベースのデコーダにも適用でき、qecの実験的な実装の候補としてより有望である。 さらに、このアプローチを利用して、QEC符号のより広いクラスのしきい値(例えば、高速量子低密度パリティチェック符号)を改善することができる。

Color codes are promising quantum error correction (QEC) codes because they have an advantage over surface codes in that all Clifford gates can be implemented transversally. However, thresholds of color codes under circuit-level noise are relatively low mainly because measurements of their high-weight stabilizer generators cause an increase in a circuit depth, and thus, substantial errors are introduced. This makes color codes not the best candidate. Here, we propose a method to suppress the impact of such errors by optimizing weights of decoders using flag qubits and reducing the circuit depth using cat states. We set the weights based on conditional error probabilities conditioned on the measurement outcomes of flag qubits. In numerical simulations, we improve the threshold of the (4.8.8) color code under the circuit-level noise from 0.14% to around 0.27%, which is calculated by using an integer programming decoder. Furthermore, in the (6.6.6) color code, we achieved a circuit-level threshold of around 0.36%, which is almost the same value as the highest value in the previous studies employing the same noise model. In both cases, the achieved logical error rates at low physical error rates are almost one order of magnitude lower than a conventional method that uses a single ancilla qubit for each stabilizer measurement. This method can also be applied to other weight-based decoders, making the color codes more promising for the candidate of experimental implementation of QEC. Furthermore, one can utilize this approach to improve a threshold of wider classes of QEC codes, such as high-rate quantum low-density parity check codes.
翻訳日:2024-02-22 14:18:24 公開日:2024-02-21
# 背景雑音と歪みに対処したオーディオフィンガープリント精度の向上

Advancing Audio Fingerprinting Accuracy Addressing Background Noise and Distortion Challenges ( http://arxiv.org/abs/2402.13957v1 )

ライセンス: Link先を確認
Navin Kamuni, Sathishkumar Chintala, Naveen Kunchakuri, Jyothi Swaroop Arlagadda Narasimharaju, Venkat Kumar(参考訳) Shazamのような先駆者たちによるオーディオフィンガープリントは、デジタル音声認識を変革した。 しかし、既存のシステムは困難条件下での精度に苦慮し、幅広い適用性を制限する。 本研究では,aiとmlを統合した音声フィンガープリンティングアルゴリズムを提案する。 Dejavu Projectの基礎の上に構築されたこの研究は、様々な背景ノイズと歪みを伴う実世界のシナリオシミュレーションを強調している。 dejavuのモデルの中心となる信号処理には、高速フーリエ変換、スペクトログラム、ピーク抽出が含まれる。 コンステレーション」の概念と指紋ハッシュは、ユニークな歌の識別を可能にする。 性能評価は、5秒の音声入力で100%精度を証明し、予測可能なマッチング速度を効率よく示すシステムを示す。 ストレージ分析は、実用的な実装のための重要な空間速度トレードオフを強調している。 本研究は音声フィンガープリントの適応性を向上し,様々な環境や応用における課題に対処する。

Audio fingerprinting, exemplified by pioneers like Shazam, has transformed digital audio recognition. However, existing systems struggle with accuracy in challenging conditions, limiting broad applicability. This research proposes an AI and ML integrated audio fingerprinting algorithm to enhance accuracy. Built on the Dejavu Project's foundations, the study emphasizes real-world scenario simulations with diverse background noises and distortions. Signal processing, central to Dejavu's model, includes the Fast Fourier Transform, spectrograms, and peak extraction. The "constellation" concept and fingerprint hashing enable unique song identification. Performance evaluation attests to 100% accuracy within a 5-second audio input, with a system showcasing predictable matching speed for efficiency. Storage analysis highlights the critical space-speed trade-off for practical implementation. This research advances audio fingerprinting's adaptability, addressing challenges in varied environments and applications.
翻訳日:2024-02-22 14:17:53 公開日:2024-02-21
# セマンティックスを次の単語予測で学べるか? エンターメントの事例

Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment ( http://arxiv.org/abs/2402.13956v1 )

ライセンス: Link先を確認
William Merrill and Zhaofeng Wu and Norihito Naka and Yoon Kim and Tal Linzen(参考訳) LMはトレーニングデータ中の共起パターンからテキストの意味を推測するだろうか? Merrill et al. (2022) は、理論上、最適LMにより予測される確率は、包含関係に関する意味情報を符号化するが、Merrill et al による強い理想化仮定のため、コーポラで訓練された神経的LMが、この方法で包含を学習するかどうかは不明である。 そこで本研究では,その理論がニューラルネットワークから係り受け判定を復号するために有効かどうかを考察する。 彼らのテストに似たテストは、多くのデータセットとlmsで、ランダムな確率をはるかに上回っても、自然文間の関係をデコードできることがわかりました。 これは、lmsが暗黙的に意味論の側面をモデル化し、文の共起パターンに対する意味的効果を予測することを示唆する。 しかし,実際に係り受けを予測できるテストは理論テストとは反対の方向に働くことがわかった。 そこで,本研究では,原本テストの前提となる仮定を再検討し,その導出が人間の文章の冗長性を十分に考慮していないことを発見した。 説明に関係した冗長性を正しく説明することは、観察されたフリップテストの結果であり、より一般的には、人間の話者の言語理論を改善する可能性があると論じる。

Do LMs infer the semantics of text from co-occurrence patterns in their training data? Merrill et al. (2022) argue that, in theory, probabilities predicted by an optimal LM encode semantic information about entailment relations, but it is unclear whether neural LMs trained on corpora learn entailment in this way because of strong idealizing assumptions made by Merrill et al. In this work, we investigate whether their theory can be used to decode entailment judgments from neural LMs. We find that a test similar to theirs can decode entailment relations between natural sentences, well above random chance, though not perfectly, across many datasets and LMs. This suggests LMs implicitly model aspects of semantics to predict semantic effects on sentence co-occurrence patterns. However, we find the test that predicts entailment in practice works in the opposite direction to the theoretical test. We thus revisit the assumptions underlying the original test, finding its derivation did not adequately account for redundancy in human-written text. We argue that correctly accounting for redundancy related to explanations might derive the observed flipped test and, more generally, improve linguistic theories of human speakers.
翻訳日:2024-02-22 14:17:42 公開日:2024-02-21
# BEE-NET:感情の身体的表現を特定するディープニューラルネットワーク

BEE-NET: A deep neural network to identify in-the-wild Bodily Expression of Emotions ( http://arxiv.org/abs/2402.13955v1 )

ライセンス: Link先を確認
Mohammad Mahdi Dehshibi and David Masip(参考訳) 本研究では,環境要因,特に場面や対象が,身体言語を通じた感情表現にどのように影響するかを検討する。 この目的のために,BEE-NETという新しいマルチストリーム深層畳み込みニューラルネットワークを提案する。 また,学習過程における事前知識として,場所や物体のメタ情報を含む新たな後期融合戦略を提案する。 提案する確率的プーリングモデルでは,この情報を利用して潜在空間における可利用情報と予測可能文脈情報の同時確率分布を生成する。 重要なことは、我々の融合戦略は微分可能であり、さらなる後処理や正規化を必要とせず、エンドツーエンドのトレーニングとデータポイント間の隠れた関連のキャプチャを可能にします。 深層モデルを評価するために、現在利用可能な最大のデータベースであるボディーランゲージデータベース(bold)を使用し、感情のin-the-wildボディー表現(aibee)を自動的に識別します。 実験の結果,提案手法はAIBEEの最先端技術よりも2.07%,感情認識スコア66.33%を達成していることがわかった。

In this study, we investigate how environmental factors, specifically the scenes and objects involved, can affect the expression of emotions through body language. To this end, we introduce a novel multi-stream deep convolutional neural network named BEE-NET. We also propose a new late fusion strategy that incorporates meta-information on places and objects as prior knowledge in the learning process. Our proposed probabilistic pooling model leverages this information to generate a joint probability distribution of both available and anticipated non-available contextual information in latent space. Importantly, our fusion strategy is differentiable, allowing for end-to-end training and capturing of hidden associations among data points without requiring further post-processing or regularisation. To evaluate our deep model, we use the Body Language Database (BoLD), which is currently the largest available database for the Automatic Identification of the in-the-wild Bodily Expression of Emotions (AIBEE). Our experimental results demonstrate that our proposed approach surpasses the current state-of-the-art in AIBEE by a margin of 2.07%, achieving an Emotional Recognition Score of 66.33%.
翻訳日:2024-02-22 14:17:18 公開日:2024-02-21
# 予測品質のプロキシによるマスケ言語モデルにおける社会的バイアスの測定

Measuring Social Biases in Masked Language Models by Proxy of Prediction Quality ( http://arxiv.org/abs/2402.13954v1 )

ライセンス: Link先を確認
Rahul Zalkikar, Kanchan Chandra(参考訳) 社会科学者や政治学者は、しばしばテキストデータ表現(埋め込み)から異なるバイアスを発見し、測定することを目的としている。 革新的なトランスフォーマティブベースの言語モデルは、コンテキスト対応のトークン埋め込みを生成し、さまざまな自然言語タスクで最先端のパフォーマンスを達成しているが、下流アプリケーションでは望ましくないバイアスをエンコードすることが示されている。 本稿では,提案するプロキシ関数を用いて,マスク言語モデリングの目的を訓練したトランスフォーマによって符号化される社会的バイアスを,トランスフォーマの予測品質を測定するための反復マスク実験で評価し,不利益なグループに対するmlmの選好を評価する。 2つのベンチマークデータセットを用いて、他の評価手法によるバイアス推定と比較し、MLMにおける比較的高い宗教的、障害的バイアスと、他のデータセットと比較して低い性別的バイアスを求める。 我々の措置は、人間アノテータとの合意で他よりも優れている。 本研究は,mlmをマスキング言語モデリング目標(w.r.t.)で再訓練した後に導入した社会的バイアスを評価し,提案手法がトランスフォーマー間におけるバイアス文の相対的嗜好を,他の手法よりも精度良く推定することを示すものである。

Social and political scientists often aim to discover and measure distinct biases from text data representations (embeddings). Innovative transformer-based language models produce contextually-aware token embeddings and have achieved state-of-the-art performance for a variety of natural language tasks, but have been shown to encode unwanted biases for downstream applications. In this paper, we evaluate the social biases encoded by transformers trained with the masked language modeling objective using proposed proxy functions within an iterative masking experiment to measure the quality of transformer models' predictions, and assess the preference of MLMs towards disadvantaged and advantaged groups. We compare bias estimations with those produced by other evaluation methods using two benchmark datasets, finding relatively high religious and disability biases across considered MLMs and low gender bias in one dataset relative to the other. Our measures outperform others in their agreement with human annotators. We extend on previous work by evaluating social biases introduced after re-training an MLM under the masked language modeling objective (w.r.t. the model's pre-trained base), and find that proposed measures produce more accurate estimations of relative preference for biased sentences between transformers than others based on our methods.
翻訳日:2024-02-22 14:16:58 公開日:2024-02-21
# 推論事項の作成:思考連鎖の忠実性の測定と改善

Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning ( http://arxiv.org/abs/2402.13950v1 )

ライセンス: Link先を確認
Debjit Paul, Robert West, Antoine Bosselut and Boi Faltings(参考訳) 大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。 しかし、モデルの最終回答が、述べられた推論ステップにどの程度忠実であるかは不明である。 本稿では,12個のLCMの因果媒介分析を行い,LLMが生成する中間推論ステップが最終結果にどのように影響するかを検証し,回答を生成する際に,その中間推論ステップを確実に利用しないことを確かめる。 この問題に対処するため、我々は、小規模のlmsを調整して正しい推論ステップを生成し、これらのステップに対してロバストに推論するフレームワーク frodo を紹介します。 FRODOは、暗黙の因果報酬関数を用いて正しい推論ステップを生成することを学ぶ推論モジュールと、反事実的および因果選好目的を用いてこれらの中間推論を忠実に推論することを学ぶ推論モジュールからなる。 実験の結果,FRODOは4つの競争基準を著しく上回っていることがわかった。 さらに、FRODOは、推理LMの堅牢性と一般化能力を向上し、分布外テストセットの性能を向上させる。 最後に、FRODOの理性は、標準的な教師付き微調整よりも最終的な答え予測に忠実であることが分かる。

Large language models (LLMs) have been shown to perform better when asked to reason step-by-step before answering a question. However, it is unclear to what degree the model's final answer is faithful to the stated reasoning steps. In this paper, we perform a causal mediation analysis on twelve LLMs to examine how intermediate reasoning steps generated by the LLM influence the final outcome and find that LLMs do not reliably use their intermediate reasoning steps when generating an answer. To address this issue, we introduce FRODO, a framework to tailor small-sized LMs to generate correct reasoning steps and robustly reason over these steps. FRODO consists of an inference module that learns to generate correct reasoning steps using an implicit causal reward function and a reasoning module that learns to faithfully reason over these intermediate inferences using a counterfactual and causal preference objective. Our experiments show that FRODO significantly outperforms four competitive baselines. Furthermore, FRODO improves the robustness and generalization ability of the reasoning LM, yielding higher performance on out-of-distribution test sets. Finally, we find that FRODO's rationales are more faithful to its final answer predictions than standard supervised fine-tuning.
翻訳日:2024-02-22 14:16:34 公開日:2024-02-21
# AttackGNN:強化学習を用いたハードウェアセキュリティにおけるGNNの再編成

AttackGNN: Red-Teaming GNNs in Hardware Security Using Reinforcement Learning ( http://arxiv.org/abs/2402.13946v1 )

ライセンス: Link先を確認
Vasudev Gohil, Satwik Patnaik, Dileep Kalathil, Jeyavijayan Rajendran(参考訳) 機械学習は、いくつかの重要なハードウェアセキュリティ問題に対処する上で大きな可能性を秘めている。 特に、研究者は、知的財産権(IP)の海賊行為、ハードウェアトロイの木馬(HT)の検出、リバースエンジニアリング回路などを検出する新しいグラフニューラルネットワーク(GNN)ベースの技術を開発した。 これらの技術は顕著な精度を示し、コミュニティで多くの注目を集めている。 しかし、これらの技術はセキュリティアプリケーションに使用されるため、それらを徹底的に評価し、堅牢で、集積回路のセキュリティを損なわないよう保証することが不可欠である。 本研究では,ハードウェアセキュリティにおけるGNNベースの技術に対する最初のレッドチーム攻撃であるAttackGNNを提案する。 そこで我々は,GNNに基づく手法に対して,回路の逆例を生成する新しい強化学習(RL)エージェントを考案した。 有効性,スケーラビリティ,汎用性の3つの課題を克服し,強力なRLエージェントを考案する。 我々は,IP海賊行為,HTの検出とローカライズ,リバースエンジニアリング,ハードウェア難読化という,ハードウェアセキュリティにおける4つの重要な問題に対して,GNNベースの5つのテクニックをターゲットにしている。 このアプローチを通じて、私たちはこの作業で考慮されたすべてのGNNを騙す回路を作ります。 例えば、IP海賊行為の検出を避けるために、GNNベースの防御を騙して、我々の製造した回路を海賊ではないと分類する敵海賊回路を生成する。 HTローカライゼーションGNNを攻撃するために、我々の攻撃はHTに感染した回路を生成し、テストされた全ての回路の防御を妨害する。 問題の全クラスについて、GNNに対して同様の100%の成功率を得る。

Machine learning has shown great promise in addressing several critical hardware security problems. In particular, researchers have developed novel graph neural network (GNN)-based techniques for detecting intellectual property (IP) piracy, detecting hardware Trojans (HTs), and reverse engineering circuits, to name a few. These techniques have demonstrated outstanding accuracy and have received much attention in the community. However, since these techniques are used for security applications, it is imperative to evaluate them thoroughly and ensure they are robust and do not compromise the security of integrated circuits. In this work, we propose AttackGNN, the first red-team attack on GNN-based techniques in hardware security. To this end, we devise a novel reinforcement learning (RL) agent that generates adversarial examples, i.e., circuits, against the GNN-based techniques. We overcome three challenges related to effectiveness, scalability, and generality to devise a potent RL agent. We target five GNN-based techniques for four crucial classes of problems in hardware security: IP piracy, detecting/localizing HTs, reverse engineering, and hardware obfuscation. Through our approach, we craft circuits that fool all GNNs considered in this work. For instance, to evade IP piracy detection, we generate adversarial pirated circuits that fool the GNN-based defense into classifying our crafted circuits as not pirated. For attacking HT localization GNN, our attack generates HT-infested circuits that fool the defense on all tested circuits. We obtain a similar 100% success rate against GNNs for all classes of problems.
翻訳日:2024-02-22 14:16:08 公開日:2024-02-21
# LLM の実施と公開を (ほとんど) 強制する

Coercing LLMs to do and reveal (almost) anything ( http://arxiv.org/abs/2402.14020v1 )

ライセンス: Link先を確認
Jonas Geiping, Alex Stein, Manli Shu, Khalid Saifullah, Yuxin Wen and Tom Goldstein(参考訳) 近年,大規模言語モデル(LLM)に対する敵対的攻撃は,有害なステートメントを作るためにモデルを「妨害」することができることが示されている。 本研究では, LLMに対する敵対的攻撃のスペクトルは, 単なるジェイルブレイクよりもはるかに大きいと論じる。 可能な攻撃面と攻撃目標を概観する。 一連の具体例に基づいて,誤指示,モデル制御,サービス拒否,データ抽出など,意図せぬ動作を強要する攻撃を論じ,分類し,体系化する。 我々は、これらの攻撃を制御実験で分析し、それらの多くは、コーディング能力を持つLLMの事前訓練の実践と、セキュリティ上の理由から除去されるべき共通LLM語彙における奇妙な"グリッチ"トークンの継続に起因していることを発見した。

It has recently been shown that adversarial attacks on large language models (LLMs) can "jailbreak" the model into making harmful statements. In this work, we argue that the spectrum of adversarial attacks on LLMs is much larger than merely jailbreaking. We provide a broad overview of possible attack surfaces and attack goals. Based on a series of concrete examples, we discuss, categorize and systematize attacks that coerce varied unintended behaviors, such as misdirection, model control, denial-of-service, or data extraction. We analyze these attacks in controlled experiments, and find that many of them stem from the practice of pre-training LLMs with coding capabilities, as well as the continued existence of strange "glitch" tokens in common LLM vocabularies that should be removed for security reasons.
翻訳日:2024-02-22 14:09:17 公開日:2024-02-21
# D-Flow:制御生成のための流れの微分

D-Flow: Differentiating through Flows for Controlled Generation ( http://arxiv.org/abs/2402.14017v1 )

ライセンス: Link先を確認
Heli Ben-Hamu, Omri Puny, Itai Gat, Brian Karrer, Uriel Singer, Yaron Lipman(参考訳) タスク固有のモデルを再トレーニングすることなく、Diffusion and Flow-Matching(FM)モデルの状態の生成結果に対処することで、逆問題、条件生成、制御された生成を一般的に解決する強力なツールを解放する。 D-Flowは、フローを微分し、ソース(ノイズ)ポイントを最適化することで生成プロセスを制御するシンプルなフレームワークです。 ガウス確率経路でトレーニングされた拡散/fmモデルでは、生成プロセスを通してデータ多様体上の勾配を計画し、最適化プロセスに暗黙的に事前を注入する。 画像と音声の逆問題と条件分子生成がすべての芸術性能に到達した状態を含む線形および非線形制御生成問題に関する枠組みを検証する。

Taming the generation outcome of state of the art Diffusion and Flow-Matching (FM) models without having to re-train a task-specific model unlocks a powerful tool for solving inverse problems, conditional generation, and controlled generation in general. In this work we introduce D-Flow, a simple framework for controlling the generation process by differentiating through the flow, optimizing for the source (noise) point. We motivate this framework by our key observation stating that for Diffusion/FM models trained with Gaussian probability paths, differentiating through the generation process projects gradient on the data manifold, implicitly injecting the prior into the optimization process. We validate our framework on linear and non-linear controlled generation problems including: image and audio inverse problems and conditional molecule generation reaching state of the art performance across all.
翻訳日:2024-02-22 14:09:01 公開日:2024-02-21
# LLM-as-a-Judgeのロバストか? ゼロショットLDM評価におけるユニバーサル・アタックの検討

Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment ( http://arxiv.org/abs/2402.14016v1 )

ライセンス: Link先を確認
Vyas Raina, Adian Liusie, Mark Gales(参考訳) 大規模言語モデル(llm)は強力なゼロショット評価器であり、筆記試験やベンチマークシステムなど現実世界の状況でますます使われている。 それにもかかわらず、既存の研究では、出力を操作しようとする敵に対するジャッジllmの脆弱性を分析していない。 本研究は,テキストに付加することでllmを欺き,高い評価スコアを与えることができる短い普遍句を探索する,アセスメントllmの対向的ロバスト性に関する最初の研究である。 SummEval と TopicalChat の実験では、LLM-scoring と LLM-comparative の両方が単純な結合攻撃に対して脆弱であり、特に LLM-scoring は非常に感受性が高く、入力テキストの品質に関わらず最大評価スコアが得られることを示した。 興味深いことに、そのような攻撃は転送可能であり、小さいオープンソース LLM で学んだフレーズは GPT3.5 のような大型のクローズドソースモデルに適用できる。 これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。 本研究は,LLMの信頼性に関する重要な懸念を提起し,LLM評価手法における脆弱性への対処の重要性を明らかにした。

Large Language Models (LLMs) are powerful zero-shot assessors and are increasingly used in real-world situations such as for written exams or benchmarking systems. Despite this, no existing work has analyzed the vulnerability of judge-LLMs against adversaries attempting to manipulate outputs. This work presents the first study on the adversarial robustness of assessment LLMs, where we search for short universal phrases that when appended to texts can deceive LLMs to provide high assessment scores. Experiments on SummEval and TopicalChat demonstrate that both LLM-scoring and pairwise LLM-comparative assessment are vulnerable to simple concatenation attacks, where in particular LLM-scoring is very susceptible and can yield maximum assessment scores irrespective of the input text quality. Interestingly, such attacks are transferable and phrases learned on smaller open-source LLMs can be applied to larger closed-source models, such as GPT3.5. This highlights the pervasive nature of the adversarial vulnerabilities across different judge-LLM sizes, families and methods. Our findings raise significant concerns on the reliability of LLMs-as-a-judge methods, and underscore the importance of addressing vulnerabilities in LLM assessment methods before deployment in high-stakes real-world scenarios.
翻訳日:2024-02-22 14:08:38 公開日:2024-02-21
# 矯正機械の学習

Corrective Machine Unlearning ( http://arxiv.org/abs/2402.14015v1 )

ライセンス: Link先を確認
Shashwat Goel, Ameya Prabhu, Philip Torr, Ponnurangam Kumaraguru, Amartya Sanyal(参考訳) 機械学習モデルは、インターネットから引き出された大規模トレーニングデータセットを使用することで、データ整合性の課題に直面している。 データの操作や誤操作を検出すると、開発者が何ができるのかを調査する。 このような操作されたデータは、バックドアされたサンプルに対する脆弱性、系統的バイアス、一般に特定の入力領域における精度の低下などの悪影響を引き起こす可能性がある。 多くの場合、操作されたトレーニングサンプルはすべて不明であり、影響を受けるデータの小さな代表的なサブセットだけがフラグ付けされる。 我々は,未知の操作によって影響を受けるデータの影響を軽減し,おそらく影響のあるサンプルのサブセットのみを知る問題として,"修正的マシンアンラーニング"を定式化する。 修正的アンラーニングの問題は従来のプライバシ指向のアンラーニングとは大きく異なる。 我々は、ゴールドスタンダード・リトレーニング・トゥ・スクラッチを含む既存の未学習手法のほとんどが、有効な修正未学習のために、操作されたデータの大部分を識別する必要があることを発見した。 しかし、1つのアプローチであるSSDは、操作されたサンプルのごく一部で学習不能な副作用を克服し、この設定のトラクタビリティを示す。 当社の作業が、修正的アンラーニングのためのより良い方法の開発に向けた研究を加速し、Webスケールのトレーニングから生じるデータの完全性に対処する新たな戦略を実践者に提供することを願っています。

Machine Learning models increasingly face data integrity challenges due to the use of large-scale training datasets drawn from the internet. We study what model developers can do if they detect that some data was manipulated or incorrect. Such manipulated data can cause adverse effects like vulnerability to backdoored samples, systematic biases, and in general, reduced accuracy on certain input domains. Often, all manipulated training samples are not known, and only a small, representative subset of the affected data is flagged. We formalize "Corrective Machine Unlearning" as the problem of mitigating the impact of data affected by unknown manipulations on a trained model, possibly knowing only a subset of impacted samples. We demonstrate that the problem of corrective unlearning has significantly different requirements from traditional privacy-oriented unlearning. We find most existing unlearning methods, including the gold-standard retraining-from-scratch, require most of the manipulated data to be identified for effective corrective unlearning. However, one approach, SSD, achieves limited success in unlearning adverse effects with just a small portion of the manipulated samples, showing the tractability of this setting. We hope our work spurs research towards developing better methods for corrective unlearning and offers practitioners a new strategy to handle data integrity challenges arising from web-scale training.
翻訳日:2024-02-22 14:07:25 公開日:2024-02-21
# 誤解、学習、ランキング: ユーザーの注意を限定した活用

Misalignment, Learning, and Ranking: Harnessing Users Limited Attention ( http://arxiv.org/abs/2402.14013v1 )

ライセンス: Link先を確認
Arpit Agarwal, Rad Niazadeh, Prathamesh Patil(参考訳) デジタルヘルスとEdTechでは、レコメンデーションシステムは重大な課題に直面している。 この不一致は、長期の給与の増加を伴うアイテムの探索を妨げる可能性があるため、アイテムのランク付けを効果的に学ぶことが困難になる。 本稿では,ユーザの注意力の制限を生かしてこの問題に取り組む。 本稿では,プラットフォームが未払いのアイテムをランキングリストに表示し,時間とともに$T$ユーザに提示するモデルを提案する。 各ユーザは、まずこれらのランキング項目のプレフィックスウィンドウを考慮し、そのウィンドウ内で最も好まれる項目を選択してアイテムを選択する(そしてプラットフォームは、この項目に対する支払いを観察する)。 追従的最適ベンチマークに対する後悔を消失させるオンラインバンディットアルゴリズムの設計について検討した。 まず,adversarial window sizes と stochastic iid payoff について考察した。 我々は, 最適インスタンス依存後悔境界を$O(\log(T))$とし, 一致した後悔の上限と下限を示す能動消去アルゴリズムを設計する。 鍵となるアイデアは、問題の組合せ構造を使用して、各アイテムから大きな支払いを得るか、そのアイテムからサンプルを取得することで探索することです。 この方法は、学習効率とペイオフを高めるために、項目選択を体系的に絞り込む。 第二に、対向的なペイオフと確率的iidウィンドウサイズを考える。 私たちは、期待される支払いを最大化する置換を見つけるという完全な情報問題から始めます。 新たな組合せ論により,許容アイテム選択確率のポリトープを置換によって特徴付け,多項式サイズの表現を持つことを示す。 この表現を用いて、許容確率の空間における逆オンライン線形最適化の標準アルゴリズムを用いて、$o(\sqrt{t})$ regret の多項式時間アルゴリズムを得る方法を示す。

In digital health and EdTech, recommendation systems face a significant challenge: users often choose impulsively, in ways that conflict with the platform's long-term payoffs. This misalignment makes it difficult to effectively learn to rank items, as it may hinder exploration of items with greater long-term payoffs. Our paper tackles this issue by utilizing users' limited attention spans. We propose a model where a platform presents items with unknown payoffs to the platform in a ranked list to $T$ users over time. Each user selects an item by first considering a prefix window of these ranked items and then picking the highest preferred item in that window (and the platform observes its payoff for this item). We study the design of online bandit algorithms that obtain vanishing regret against hindsight optimal benchmarks. We first consider adversarial window sizes and stochastic iid payoffs. We design an active-elimination-based algorithm that achieves an optimal instance-dependent regret bound of $O(\log(T))$, by showing matching regret upper and lower bounds. The key idea is using the combinatorial structure of the problem to either obtain a large payoff from each item or to explore by getting a sample from that item. This method systematically narrows down the item choices to enhance learning efficiency and payoff. Second, we consider adversarial payoffs and stochastic iid window sizes. We start from the full-information problem of finding the permutation that maximizes the expected payoff. By a novel combinatorial argument, we characterize the polytope of admissible item selection probabilities by a permutation and show it has a polynomial-size representation. Using this representation, we show how standard algorithms for adversarial online linear optimization in the space of admissible probabilities can be used to obtain a polynomial-time algorithm with $O(\sqrt{T})$ regret.
翻訳日:2024-02-22 14:06:41 公開日:2024-02-21
# 長期制約付き凸関数の追従

Chasing Convex Functions with Long-term Constraints ( http://arxiv.org/abs/2402.14012v1 )

ライセンス: Link先を確認
Adam Lechowicz, Nicolas Christianson, Bo Sun, Noman Bashir, Mohammad Hajiesmaili, Adam Wierman, Prashant Shenoy(参考訳) 我々は,長期的制約を伴うオンライン計量問題群を紹介し,研究する。 これらの問題において、オンラインプレイヤーは、計量空間で$(x,d)$で$\mathbf{x}_t$という決定を下し、そのヒットコスト$f_t(\mathbf{x}_t)$と、メトリックによって決定される切替コストを同時に最小化する。 時間軸$t$の間、プレイヤーは長期的な需要制約$\sum_{t} c(\mathbf{x}_t) \geq 1$を満たさなければならない。 このような問題は、持続可能エネルギーとコンピューティングシステムにおけるオンラインリソース割り当てに対する幅広い応用を見出すことができる。 我々は,これらの問題の特定インスタンス化に最適な競合アルゴリズムと学習支援アルゴリズムを考案し,提案手法が数値実験において有効であることを示す。

We introduce and study a family of online metric problems with long-term constraints. In these problems, an online player makes decisions $\mathbf{x}_t$ in a metric space $(X,d)$ to simultaneously minimize their hitting cost $f_t(\mathbf{x}_t)$ and switching cost as determined by the metric. Over the time horizon $T$, the player must satisfy a long-term demand constraint $\sum_{t} c(\mathbf{x}_t) \geq 1$, where $c(\mathbf{x}_t)$ denotes the fraction of demand satisfied at time $t$. Such problems can find a wide array of applications to online resource allocation in sustainable energy and computing systems. We devise optimal competitive and learning-augmented algorithms for specific instantiations of these problems, and further show that our proposed algorithms perform well in numerical experiments.
翻訳日:2024-02-22 14:06:11 公開日:2024-02-21
# 至る所にある2つの光子

Two photons everywhere ( http://arxiv.org/abs/2402.14010v1 )

ライセンス: Link先を確認
Eduardo Zubizarreta Casalengua, Fabrice P. Laussy and Elena del Valle(参考訳) 2光子物理を議論し、共鳴蛍光の特定の時空間的ケースを例証する。 干渉と相関の基本的な概念は、2光子レベルでは1光子レベルとは独立で大きく異なる画像を提供し、相関のランドスケープはシステムが発する可能性のある全ての周波数にまたがって様々なプロセスを明らかにする。 このような風景は、通常、光子束ねと反束の円の線を示す。 これらの特徴を説明する理論は2つの柱に残っています。 一 周波数分解光子相関の理論及び 二 古典及び量子場を混和すること。 これまで実験では、スペクトルピーク間の相関に焦点を合わせてきたが、ピークから放出される光子の間には強い相関関係が存在し、これは多光子観測でのみアクセス可能である。 これらは量子光学過程の基本的な理解と、これらの見当たらない資源を利用して応用の両方に利用することができる。

We discuss two-photon physics, taking for illustration the particular but topical case of resonance fluorescence. We show that the basic concepts of interferences and correlations provide at the two-photon level an independent and drastically different picture than at the one-photon level, with landscapes of correlations that reveal various processes by spanning over all the possible frequencies at which the system can emit. Such landscapes typically present lines of photon bunching and circles of antibunching. The theoretical edifice to account for these features rests on two pillars: i) a theory of frequency-resolved photon correlations and ii) admixing classical and quantum fields. While experimental efforts have been to date concentrated on correlations between spectral peaks, strong correlations exist between photons emitted away from the peaks, which are accessible only through multiphoton observables. These could be exploited for both fundamental understanding of quantum-optical processes as well as applications by harnessing these unsuspected resources.
翻訳日:2024-02-22 14:05:54 公開日:2024-02-21
# 幾何インフォームドニューラルネットワーク

Geometry-Informed Neural Networks ( http://arxiv.org/abs/2402.14009v1 )

ライセンス: Link先を確認
Arturs Berzins, Andreas Radler, Sebastian Sanokowski, Sepp Hochreiter, Johannes Brandstetter(参考訳) 本稿では,幾何インフォームドニューラルネットワーク(GINN)の概念を紹介する。 (i)幾何学的制約の下での学習 (ii)適切な表現としての神経場、及び (iii)幾何学的課題にしばしば遭遇する未決定のシステムに対する多様な解を生成すること。 特に、GINNの定式化はトレーニングデータを必要としないため、制約によって純粋に駆動される生成モデリングと見なすことができる。 モード崩壊を緩和するために、明らかな多様性の損失を加えます。 我々はいくつかの制約、特にモース理論を通じて微分可能な損失に変換する成分の連結性を考える。 実験では,複雑さのレベルが増大する2次元および3次元シナリオにおけるginn学習パラダイムの有効性を実証する。

We introduce the concept of geometry-informed neural networks (GINNs), which encompass (i) learning under geometric constraints, (ii) neural fields as a suitable representation, and (iii) generating diverse solutions to under-determined systems often encountered in geometric tasks. Notably, the GINN formulation does not require training data, and as such can be considered generative modeling driven purely by constraints. We add an explicit diversity loss to mitigate mode collapse. We consider several constraints, in particular, the connectedness of components which we convert to a differentiable loss through Morse theory. Experimentally, we demonstrate the efficacy of the GINN learning paradigm across a range of two and three-dimensional scenarios with increasing levels of complexity.
翻訳日:2024-02-22 14:05:38 公開日:2024-02-21
# OlympiadBench: Olympiad-Level Bilingual Multimodal Scientific Problemsを用いたAGIの促進ベンチマーク

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems ( http://arxiv.org/abs/2402.14008v1 )

ライセンス: Link先を確認
Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun(参考訳) 近年,Large Language Models (LLMs) やLarge Multimodal Models (LMMs) が様々なタスクにおいて一般の人間の能力を上回っ,複数のドメインにわたる専門家の熟練度に近づいている。 従来のベンチマークはこれらのモデルにとって難易度が低いため、高度な能力を評価するために新しい厳格な課題が不可欠である。 本研究では,オリンピアドレベルの多言語多言語科学ベンチマークであるオリンピアドベンチ(olympiadbench)について紹介する。 それぞれの問題は、ステップバイステップの推論のための専門家レベルのアノテーションで詳述されている。 OlympiadBench上での上位モデルの評価を行い、モデル応答を正確に評価する包括的評価手法を実装した。 特に、最も優れたモデルであるgpt-4vはオリンピアドベンチで平均スコア17.23%に達し、物理学では11.28%であり、ベンチマークの厳密さと物理的推論の複雑さを強調している。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。 我々の挑戦的なベンチマークが、将来のagi研究の努力を助ける貴重なリソースとなることを願っている。

Recent advancements have seen Large Language Models (LLMs) and Large Multimodal Models (LMMs) surpassing general human capabilities in various tasks, approaching the proficiency level of human experts across multiple domains. With traditional benchmarks becoming less challenging for these models, new rigorous challenges are essential to gauge their advanced abilities. In this work, we present OlympiadBench, an Olympiad-level bilingual multimodal scientific benchmark, featuring 8,952 problems from Olympiad-level mathematics and physics competitions, including the Chinese college entrance exam. Each problem is detailed with expert-level annotations for step-by-step reasoning. Evaluating top-tier models on OlympiadBench, we implement a comprehensive assessment methodology to accurately evaluate model responses. Notably, the best-performing model, GPT-4V, attains an average score of 17.23% on OlympiadBench, with a mere 11.28% in physics, highlighting the benchmark rigor and the intricacy of physical reasoning. Our analysis orienting GPT-4V points out prevalent issues with hallucinations, knowledge omissions, and logical fallacies. We hope that our challenging benchmark can serve as a valuable resource for helping future AGI research endeavors.
翻訳日:2024-02-22 14:05:30 公開日:2024-02-21
# 透かしは翻訳を救えるか? 大規模言語モデルにおけるテキストウォーターマークの言語間一貫性について

Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models ( http://arxiv.org/abs/2402.14007v1 )

ライセンス: Link先を確認
Zhiwei He, Binglin Zhou, Hongkun Hao, Aiwei Liu, Xing Wang, Zhaopeng Tu, Zhuosheng Zhang, Rui Wang(参考訳) テキスト透かし技術は、大きな言語モデル(LLM)が生成したコンテンツをタグ付けして識別することを目的としている。 本研究では,テキスト透かしにおける「言語間整合性」の概念を導入し,テキスト透かしが他の言語に翻訳されても有効性を維持する能力を評価する。 2つのLCMと3つの透かし手法による予備的な実証結果から、現在のテキスト透かし技術は、テキストを様々な言語に翻訳する際に一貫性が欠如していることが分かる。 そこで本研究では,まずLLMからの応答をピボット言語で取得し,対象言語に翻訳することで,透かしを回避するための言語間透かし除去攻撃(CWRA)を提案する。 CWRAは、性能を損なわずに、AUC(Area Under the Curve)を0.95から0.67に減らし、ウォーターマークを効果的に除去することができる。 さらに,テキスト透かしにおける言語間整合性に寄与する2つの要因を分析し,CWRAの下でAUCを0.67から0.88に増加させる防御法を提案する。

Text watermarking technology aims to tag and identify content produced by large language models (LLMs) to prevent misuse. In this study, we introduce the concept of ''cross-lingual consistency'' in text watermarking, which assesses the ability of text watermarks to maintain their effectiveness after being translated into other languages. Preliminary empirical results from two LLMs and three watermarking methods reveal that current text watermarking technologies lack consistency when texts are translated into various languages. Based on this observation, we propose a Cross-lingual Watermark Removal Attack (CWRA) to bypass watermarking by first obtaining a response from an LLM in a pivot language, which is then translated into the target language. CWRA can effectively remove watermarks by reducing the Area Under the Curve (AUC) from 0.95 to 0.67 without performance loss. Furthermore, we analyze two key factors that contribute to the cross-lingual consistency in text watermarking and propose a defense method that increases the AUC from 0.67 to 0.88 under CWRA.
翻訳日:2024-02-22 14:05:04 公開日:2024-02-21
# 幻覚と注意の過ち? 大規模言語モデルを用いたビジネスにおける戦略的価値抽出への道

Hallucinations or Attention Misdirection? The Path to Strategic Value Extraction in Business Using Large Language Models ( http://arxiv.org/abs/2402.14002v1 )

ライセンス: Link先を確認
Aline Ioste(参考訳) トランスフォーマーアーキテクチャを持つ大規模言語モデルはテキスト生成の領域に革命をもたらし、前例のないベンチマークを設定した。 その印象的な能力にもかかわらず、LLMは事実の正確性から逸脱した結果や論理的矛盾(幻覚と呼ばれる現象)を生んだとして批判されている。 しかしながら、この用語は、インストラクターの期待から逸脱した結果にしばしば当てはまり、本論文では、真の幻覚よりも注意ミス指向であると定義する。 幻覚と注意方向の区別を理解することはビジネスの文脈でますます重要になってきており、そのような誤りの分岐はこれらの本質的に事前訓練されたモデルから価値を抽出することに大きな影響を及ぼす可能性がある。 本稿では,PGI,ペルソナ,グルーピング,インテリジェンスという手法のベストプラクティスを強調し,実際のビジネス上の課題に対応するためにGPTが生成した4000の応答に対して,わずか3,15%のエラー率を達成した戦略的枠組みについて述べる。 知識に実験を組み込むことで、企業はこれらのネイティブに訓練済みのモデルを使用することで、イノベーションの機会を解放できる、と氏は強調する。 これは、熟練したチームに根ざした戦略的アプリケーションがllmのような創発的な技術の利点を最大化できるという考えを補強する。

Large Language Models with transformer architecture have revolutionized the domain of text generation, setting unprecedented benchmarks. Despite their impressive capabilities, LLMs have been criticized for generating outcomes that deviate from factual accuracy or display logical inconsistencies, phenomena commonly referred to as hallucinations. This term, however, has often been misapplied to any results deviating from the instructor's expectations, which this paper defines as attention misdirection rather than true hallucinations. Understanding the distinction between hallucinations and attention misdirection becomes increasingly relevant in business contexts, where the ramifications of such errors can significantly impact the value extraction from these inherently pre-trained models. This paper highlights the best practices of the PGI, Persona, Grouping, and Intelligence, method, a strategic framework that achieved a remarkable error rate of only 3,15 percent across 4,000 responses generated by GPT in response to a real business challenge. It emphasizes that by equipping experimentation with knowledge, businesses can unlock opportunities for innovation through the use of these natively pre-trained models. This reinforces the notion that strategic application grounded in a skilled team can maximize the benefits of emergent technologies such as the LLMs.
翻訳日:2024-02-22 14:04:41 公開日:2024-02-21
# 単一画像からのリアルタイム3次元画像編集

Real-time 3D-aware Portrait Editing from a Single Image ( http://arxiv.org/abs/2402.14000v1 )

ライセンス: Link先を確認
Qingyan Bai, Yinghao Xu, Zifan Shi, Hao Ouyang, Qiuyu Wang, Ceyuan Yang, Xuan Wang, Gordon Wetzstein, Yujun Shen, Qifeng Chen(参考訳) この3DPEは、参照画像やテキスト記述など、与えられたプロンプトに続く顔画像を、3D対応で効率的に編集できる実用的なツールである。 この目的のために、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから軽量モジュールを蒸留し、顔形状の事前知識とオープン語彙編集能力をそれぞれ提供する。 このような設計は、既存のアプローチよりも2つの説得力のある利点をもたらす。 まず,フィードフォワードネットワーク(画像あたり0.04秒)によるリアルタイム編集を,第2の競合に比べて100倍以上高速に行う。 第二に、強力な先行性のおかげで、我々のモジュールは、トレーニング段階で様々な種類の編集を同時に処理し、推論中にユーザー特定された新しいタイプの編集(例えば、ケースごとに5分程度の微調整)に迅速に適応できるように、編集関連のバリエーションの学習に集中できる。 コード、モデル、インターフェースは、将来の研究を促進するために公開される予定だ。

This work presents 3DPE, a practical tool that can efficiently edit a face image following given prompts, like reference images or text descriptions, in the 3D-aware manner. To this end, a lightweight module is distilled from a 3D portrait generator and a text-to-image model, which provide prior knowledge of face geometry and open-vocabulary editing capability, respectively. Such a design brings two compelling advantages over existing approaches. First, our system achieves real-time editing with a feedforward network (i.e., ~0.04s per image), over 100x faster than the second competitor. Second, thanks to the powerful priors, our module could focus on the learning of editing-related variations, such that it manages to handle various types of editing simultaneously in the training phase and further supports fast adaptation to user-specified novel types of editing during inference (e.g., with ~5min fine-tuning per case). The code, the model, and the interface will be made publicly available to facilitate future research.
翻訳日:2024-02-22 14:04:17 公開日:2024-02-21
# 深層構造(ランダム)特徴をもつ学習の漸近

Asymptotics of Learning with Deep Structured (Random) Features ( http://arxiv.org/abs/2402.13999v1 )

ライセンス: Link先を確認
Dominik Schr\"oder, Daniil Dmitriev, Hugo Cui, Bruno Loureiro(参考訳) 多数の特徴マップに対して,入力次元,隠れ層幅,トレーニングサンプル数が比例的に大きい高次元限界において,読み出し層の学習に伴うテストエラーの厳密な漸近的特徴付けを提供する。 この特徴は特徴の集団共分散の観点から定式化されている。 私たちの研究は、ガウス型レインボーニューラルネットワーク、すなわちランダムだが構造化された重みを持つ深い非線形完全連結ネットワークの学習の問題に部分的に動機づけられている。 そのようなネットワークに対しては、重み行列の観点から特徴共分散の閉形式公式も導出する。 さらに,傾斜降下下で学習した深部有限幅ニューラルネットワークによって学習された特徴マップを,いくつかのケースで捉えることができた。

For a large class of feature maps we provide a tight asymptotic characterisation of the test error associated with learning the readout layer, in the high-dimensional limit where the input dimension, hidden layer widths, and number of training samples are proportionally large. This characterization is formulated in terms of the population covariance of the features. Our work is partially motivated by the problem of learning with Gaussian rainbow neural networks, namely deep non-linear fully-connected networks with random but structured weights, whose row-wise covariances are further allowed to depend on the weights of previous layers. For such networks we also derive a closed-form formula for the feature covariance in terms of the weight matrices. We further find that in some cases our results can capture feature maps learned by deep, finite-width neural networks trained under gradient descent.
翻訳日:2024-02-22 14:03:58 公開日:2024-02-21
# 非巡回アーベル群上のクリフォード回路

Clifford circuits over non-cyclic abelian groups ( http://arxiv.org/abs/2402.13994v1 )

ライセンス: Link先を確認
Milo Moses, Jacek Horecki, Konrad Deka, Jan Tulowiecki(参考訳) 非巡回有限アーベル群に対する一般化クリフォード群の議論を示す。 これらのクリフォード群は、トポロジカルな誤差補正の理論とアーベル・エノンモデルに自然に現れる。 一般化されたゴッテマン・クニールの定理を示し、すべてのクリフォード回路を古典的にシミュレートできることを示した。 さらに、局所的な2量子クリフォードゲートとマジック状態に基づく普遍量子コンピューティングスキームのための回路を提供する。

We present a discussion of the generalized Clifford group over non-cyclic finite abelian groups. These Clifford groups appear naturally in the theory of topological error correction and abelian anyon models. We demonstrate a generalized Gottesman-Knill theorem, stating that every Clifford circuit can be efficiently classically simulated. We additionally provide circuits for a universal quantum computing scheme based on local two-qudit Clifford gates and magic states.
翻訳日:2024-02-22 14:03:44 公開日:2024-02-21
# 言語モデル事前学習におけるシーケンス構成の影響分析

Analysing The Impact of Sequence Composition on Language Model Pre-Training ( http://arxiv.org/abs/2402.13991v1 )

ライセンス: Link先を確認
Yu Zhao, Yuanbin Qu, Konrad Staniszewski, Szymon Tworkowski, Wei Liu, Piotr Mi{\l}o\'s, Yuxiang Wu, Pasquale Minervini(参考訳) ほとんどの言語モデル事前学習フレームワークは、複数のドキュメントを固定長列に結合し、コンテキストに応じて各トークンの可能性を計算するために因果マスキングを使用する。 しかし、現在に至るまで、事前学習シーケンス構成戦略がモデルの一般化特性に与える影響は未解明のままである。 本研究では, 因果マスキングを適用することで, 事前学習中に過去の文書から逸脱した情報を取り込み, 言語モデリングや下流タスクにおけるモデルの性能に悪影響を及ぼすことを示した。 ドキュメント内因果マスキングでは、各トークンの可能性を同じドキュメント内の以前のトークンのみに条件付けし、以前のドキュメントから潜在的に邪魔となる情報を排除し、パフォーマンスを大幅に向上させる。 さらに,コンカレント関連文書は事前学習中に潜在的な障害を軽減し,提案手法であるBM25Chunkは,文脈内学習(+11.6\%),知識記憶(+9.8\%),文脈利用(+7.2\%)の効率を損なうことなく,言語モデルの学習能力を向上させることができる。

Most language model pre-training frameworks concatenate multiple documents into fixed-length sequences and use causal masking to compute the likelihood of each token given its context; this strategy is widely adopted due to its simplicity and efficiency. However, to this day, the influence of the pre-training sequence composition strategy on the generalisation properties of the model remains under-explored. In this work, we find that applying causal masking can lead to the inclusion of distracting information from previous documents during pre-training, which negatively impacts the performance of the models on language modelling and downstream tasks. In intra-document causal masking, the likelihood of each token is only conditioned on the previous tokens in the same document, eliminating potential distracting information from previous documents and significantly improving performance. Furthermore, we find that concatenating related documents can reduce some potential distractions during pre-training, and our proposed efficient retrieval-based sequence construction method, BM25Chunk, can improve in-context learning (+11.6\%), knowledge memorisation (+9.8\%), and context utilisation (+7.2\%) abilities of language models without sacrificing efficiency.
翻訳日:2024-02-22 14:03:38 公開日:2024-02-21
# LogicLLM:大規模言語モデルのための自己教師型論理強化トレーニング

LogicLLM: Exploring Self-supervised Logic-enhanced Training for Large Language Models ( http://arxiv.org/abs/2305.13718v4 )

ライセンス: Link先を確認
Fangkai Jiao, Zhiyang Teng, Bosheng Ding, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty(参考訳) 言語モデルの論理的推論能力を改善する努力は、主に教師付き微調整に依存し、新しいドメインやタスクへの一般化を妨げる。 LLM(Large Langauge Models)の開発は、豊富な知識を単一のプロキシに圧縮する能力を示し、複数のタスクに効果的に取り組むことができる。 予備実験では, LLMは論理的推論の能力を示していない。 論理推論ベンチマークにおけるllmsのパフォーマンスは、既存の最先端のベースラインよりもはるかに低い。 本稿では,自己教師付きポストトレーニングを通じて論理知識を組み込むことの実現可能性について検討し,論理LLM(LogicLLM)と呼ぶコンテキスト内学習を通じてそれを活性化する試みを行う。 具体的には、自動回帰客観的なMERItを考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの難解な論理推論ベンチマークの結果は、logicllmの有効性を示している。 さらに,論理指向プロキシタスクの設計における重要な要因を分析するために,広範なアブレーション研究を行う。

Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
翻訳日:2024-02-22 12:14:46 公開日:2024-02-21
# 現実から論理へ: 生データから計画のための象徴的な語彙、行動、モデルを創出する

From Reals to Logic and Back: Inventing Symbolic Vocabularies, Actions and Models for Planning from Raw Data ( http://arxiv.org/abs/2402.11871v2 )

ライセンス: Link先を確認
Naman Shah, Jayesh Nagpal, Pulkit Verma, Siddharth Srivastava(参考訳) 手作りの論理的状態と行動表現は、タスクや動作計画問題を含む長い水平ロボット計画問題の難解な計算複雑性を克服するために広く用いられている。 しかし、そのような表現を作成するには、ロボットに関する強い直感と詳細な知識を持つ専門家と、特定の環境で達成すべきタスクが必要である。 この人間の直感への依存を取り除くことは、非常に活発な研究分野である。 本稿では,無意味な高次元実数値ロボット軌道から始まる抽象状態と行動に対する論理的関係表現を自律的に学習する最初のアプローチを提案する。 学習された表現は、pddlライクなドメインモデルを構成する。 決定論的設定における経験的な結果は、強力な抽象表現は、ほんの一握りのロボットの軌跡から学べることを示し、学習された関係表現は、古典的な直感的なハイレベルなアクションの概念を含まないこと、そして学習されたモデルは、これまで手作りの抽象化なしで計画のスコープを超えたタスクに計画アルゴリズムをスケールすることを可能にする。

Hand-crafted, logic-based state and action representations have been widely used to overcome the intractable computational complexity of long-horizon robot planning problems, including task and motion planning problems. However, creating such representations requires experts with strong intuitions and detailed knowledge about the robot and the tasks it may need to accomplish in a given setting. Removing this dependency on human intuition is a highly active research area. This paper presents the first approach for autonomously learning generalizable, logic-based relational representations for abstract states and actions starting from unannotated high-dimensional, real-valued robot trajectories. The learned representations constitute auto-invented PDDL-like domain models. Empirical results in deterministic settings show that powerful abstract representations can be learned from just a handful of robot trajectories; the learned relational representations include but go beyond classical, intuitive notions of high-level actions; and that the learned models allow planning algorithms to scale to tasks that were previously beyond the scope of planning without hand-crafted abstractions.
翻訳日:2024-02-22 12:11:36 公開日:2024-02-21
# 公に監査可能なプライバシー保護選挙ロール

Publicly auditable privacy-preserving electoral rolls ( http://arxiv.org/abs/2402.11582v2 )

ライセンス: Link先を確認
Prashant Agrawal, Mahabir Prasad Jhanwar, Subodh Vishnu Sharma, Subhashis Banerjee(参考訳) 電子投票に関する既存の文献は、投票プロトコルの妥当性を広く取り上げているが、大規模な選挙における選挙権の脆弱性は依然として重要な懸念となっている。 選挙人ロールの完全性を確保するために、現在の慣習は選挙人ロールを公にするか、政党と共有することである。 しかし、これは詳細な有権者プロファイルの構築と、有権者の選択的ターゲティングと操作を可能にし、自由かつ公正な選挙の基本原則を損なう。 本稿では,公的な監査可能かつプライバシ保護型選挙ロールの設計問題について検討する。 まず脅威モデルを定式化し、正式なセキュリティ定義を提供する。 次に,脅威を軽減する選挙ロールの作成と維持のためのプロトコルを提案する。 政党や監査役は選挙のロールを統計的に監査することができる。 選挙人名簿全体は明かされておらず、大規模な組織的な選挙人によるターゲティングや操作を妨げている。

While existing literature on electronic voting has extensively addressed verifiability of voting protocols, the vulnerability of electoral rolls in large public elections remains a critical concern. To ensure integrity of electoral rolls, the current practice is to either make electoral rolls public or share them with the political parties. However, this enables construction of detailed voter profiles and selective targeting and manipulation of voters, thereby undermining the fundamental principle of free and fair elections. In this paper, we study the problem of designing publicly auditable yet privacy-preserving electoral rolls. We first formulate a threat model and provide formal security definitions. We then present a protocol for creation and maintenance of electoral rolls that mitigates the threats. Eligible voters can verify their inclusion, whereas political parties and auditors can statistically audit the electoral roll. The entire electoral roll is never revealed, which prevents any large-scale systematic voter targeting and manipulation.
翻訳日:2024-02-22 12:11:13 公開日:2024-02-21
# Re-Dock: 拡散ブリッジによるフレキシブルでリアルな分子ドッキングを目指して

Re-Dock: Towards Flexible and Realistic Molecular Docking with Diffusion Bridge ( http://arxiv.org/abs/2402.11459v2 )

ライセンス: Link先を確認
Yufei Huang, Odin Zhang, Lirong Wu, Cheng Tan, Haitao Lin, Zhangyang Gao, Siyuan Li and Stan.Z. Li(参考訳) タンパク質-リガンド結合構造の正確な予測は、分子ドッキングとして知られるタスクが薬物設計に不可欠であるが、依然として困難である。 ディープラーニングは期待されているが、既存の手法はホロタンパク質の構造(ドッキングされ、現実的なタスクでは利用できない)やポケットサイドチェーンのコンフォーメーションに依存し、実用性や非現実的なコンフォーメーション予測に限定される。 これらのギャップを埋めるために,リガンドとポケット側鎖のポーズを同時予測するフレキシブルドッキングと呼ばれる未熟なタスクを導入し,幾何多様体に拡張した新しい拡散橋生成モデルであるre-dockを導入する。 具体的には, ニュートン・オイラー方程式に触発されたエネルギー対ジオメトリマッピングを提案し, エネルギー制約ドッキング生成過程を反映する結合エネルギーと配座を共モデル化する。 apo-dockやcross-dockを含む設計ベンチマークデータセットに関する包括的な実験は、現在の手法よりも優れた効果と効率を示している。

Accurate prediction of protein-ligand binding structures, a task known as molecular docking is crucial for drug design but remains challenging. While deep learning has shown promise, existing methods often depend on holo-protein structures (docked, and not accessible in realistic tasks) or neglect pocket sidechain conformations, leading to limited practical utility and unrealistic conformation predictions. To fill these gaps, we introduce an under-explored task, named flexible docking to predict poses of ligand and pocket sidechains simultaneously and introduce Re-Dock, a novel diffusion bridge generative model extended to geometric manifolds. Specifically, we propose energy-to-geometry mapping inspired by the Newton-Euler equation to co-model the binding energy and conformations for reflecting the energy-constrained docking generative process. Comprehensive experiments on designed benchmark datasets including apo-dock and cross-dock demonstrate our model's superior effectiveness and efficiency over current methods.
翻訳日:2024-02-22 12:10:58 公開日:2024-02-21
# SciAgent: 科学的推論のためのツール強化言語モデル

SciAgent: Tool-augmented Language Models for Scientific Reasoning ( http://arxiv.org/abs/2402.11451v2 )

ライセンス: Link先を確認
Yubo Ma, Zhibin Gou, Junheng Hao, Ruochen Xu, Shuohang Wang, Liangming Pan, Yujiu Yang, Yixin Cao, Aixin Sun, Hany Awadalla and Weizhu Chen(参考訳) 科学的推論は、最も先進的な大規模言語モデル(LLM)でさえも過度に挑戦する。 このタスクをより実用的で解き易くするために,ツール強化科学推論という新しいタスク設定を導入する。 この設定は、スケーラブルなツールセットでLLMを補完し、全能的な問題解決者から熟練したツールユーザへと焦点を移す。 そこで我々は,3万以上のサンプルと約6,000のツールを含むツール強化学習コーパスMathFuncを構築した。 MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。 さらに、私たちは5つの科学的領域にまたがるベンチマークSciToolBenchを作成し、ツールアシストによるLSMの能力を評価する。 SciToolBenchの大規模な実験により、SciAgentの有効性が確認された。 特に、SciAgent-Mistral-7Bは、同じ大きさの他のLLMを13%以上、絶対精度で上回る。 さらに、SciAgent-DeepMath-7BはChatGPTよりも優れた性能を示している。

Scientific reasoning poses an excessive challenge for even the most advanced Large Language Models (LLMs). To make this task more practical and solvable for LLMs, we introduce a new task setting named tool-augmented scientific reasoning. This setting supplements LLMs with scalable toolsets, and shifts the focus from pursuing an omniscient problem solver to a proficient tool-user. To facilitate the research of such setting, we construct a tool-augmented training corpus named MathFunc which encompasses over 30,000 samples and roughly 6,000 tools. Building on MathFunc, we develop SciAgent to retrieve, understand and, if necessary, use tools for scientific problem solving. Additionally, we craft a benchmark, SciToolBench, spanning five scientific domains to evaluate LLMs' abilities with tool assistance. Extensive experiments on SciToolBench confirm the effectiveness of SciAgent. Notably, SciAgent-Mistral-7B surpasses other LLMs with the same size by more than 13% in absolute accuracy. Furthermore, SciAgent-DeepMath-7B shows much superior performance than ChatGPT.
翻訳日:2024-02-22 12:10:40 公開日:2024-02-21
# ペアリングハミルトニアンを符号化するブロックの効率的な量子回路

An Efficient Quantum Circuit for Block Encoding a Pairing Hamiltonian ( http://arxiv.org/abs/2402.11205v3 )

ライセンス: Link先を確認
Diyi Liu, Weijie Du, Lin Lin, James P.Vary, Chao Yang(参考訳) 我々は、核物理学でよく研究されるブロック符号化対ハミルトニアンのための効率的な量子回路を提案する。 我々のブロック符号化スキームは、生成および消滅作用素をパウリ作用素にマッピングする必要はなく、ハミルトニアンをユニタリの線型結合として表す。 代わりに、制御スワップ操作を用いてハミルトンをエンコードする方法を示す。 ブロック符号化回路のゲート複雑性を解析し、ペアリングハミルトニアンに関連する量子状態を表現するのに必要な量子ビット数に対して多項式的にスケールすることを示す。 また、ブロック符号化回路と量子特異値変換を組み合わせることで、対のハミルトニアン状態の密度を近似する効率的な量子回路を構築する方法を示す。 提示される手法は、より一般的な第二量子化ハミルトニアンの符号化に拡張することができる。

We present an efficient quantum circuit for block encoding pairing Hamiltonian often studied in nuclear physics. Our block encoding scheme does not require mapping the creation and annihilation operators to the Pauli operators and representing the Hamiltonian as a linear combination of unitaries. Instead, we show how to encode the Hamiltonian directly using controlled swap operations. We analyze the gate complexity of the block encoding circuit and show that it scales polynomially with respect to the number of qubits required to represent a quantum state associated with the pairing Hamiltonian. We also show how the block encoding circuit can be combined with the quantum singular value transformation to construct an efficient quantum circuit for approximating the density of states of a pairing Hamiltonian. The techniques presented can be extended to encode more general second-quantized Hamiltonians.
翻訳日:2024-02-22 12:10:08 公開日:2024-02-21
# Black-Box Probabilistic Certification による説明のための信頼領域

Trust Regions for Explanations via Black-Box Probabilistic Certification ( http://arxiv.org/abs/2402.11168v2 )

ライセンス: Link先を確認
Amit Dhurandhar, Swagatam Haldar, Dennis Wei and Karthikeyan Natesan Ramamurthy(参考訳) 機械学習モデルのブラックボックスの性質を考えると、個々の決定の背後にある要因を解読するために、多くの説明可能性法が開発されている。 本稿では,ブラックボックス(確率的)説明証明の新たな問題を提案する。 クエリアクセスのみを持つブラックボックスモデル、例の説明と品質指標(viz.fidelity, stability)が与えられた場合、ハイパーキューブ内のすべての例に説明が適用される場合(高い確率で)、品質基準が満たされる場合(viz.fidelityはいくつかの値よりも大きい)、その例を中心とした最大のハイパーキューブ($\ell_{\infty}$ ball)を見つけることができるか? そのような \emph{trust region} を効率的に見つけることは、いくつかの利点がある。 i) \emph{ Region}, with a \emph{guarantee}におけるモデル行動に関する洞察 二 説明のemph{stability}を確定する。 三 あらゆる例について説明をしなくてすむことにより、時間、エネルギー及びお金を節約できる「emph{explanation reuse}」 iv) 説明方法の比較可能な \emph{meta-metric} 。 私たちの貢献には、この問題の形式化、ソリューションの提案、計算可能なこれらのソリューションに対する理論的保証の提供、合成および実データに対するそれらの有効性を実験的に示すことが含まれる。

Given the black box nature of machine learning models, a plethora of explainability methods have been developed to decipher the factors behind individual decisions. In this paper, we introduce a novel problem of black box (probabilistic) explanation certification. We ask the question: Given a black box model with only query access, an explanation for an example and a quality metric (viz. fidelity, stability), can we find the largest hypercube (i.e., $\ell_{\infty}$ ball) centered at the example such that when the explanation is applied to all examples within the hypercube, (with high probability) a quality criterion is met (viz. fidelity greater than some value)? Being able to efficiently find such a \emph{trust region} has multiple benefits: i) insight into model behavior in a \emph{region}, with a \emph{guarantee}; ii) ascertained \emph{stability} of the explanation; iii) \emph{explanation reuse}, which can save time, energy and money by not having to find explanations for every example; and iv) a possible \emph{meta-metric} to compare explanation methods. Our contributions include formalizing this problem, proposing solutions, providing theoretical guarantees for these solutions that are computable, and experimentally showing their efficacy on synthetic and real data.
翻訳日:2024-02-22 12:09:55 公開日:2024-02-21
# 対訳テキストガイド付きコントラスト言語-画像事前学習によるニュースサムネイル表現の理解

Understanding News Thumbnail Representativeness by Counterfactual Text-Guided Contrastive Language-Image Pretraining ( http://arxiv.org/abs/2402.11159v2 )

ライセンス: Link先を確認
Yejun Yoon, Seunghyun Yoon, and Kunwoo Park(参考訳) 本稿では,ニュースサムネイル画像の表現性を理解する上で重要な課題について述べる。 ニュース画像がニューステキストで議論される主主題を表現しているかに注目した。 この課題に対処するため,ニュースサムネイル画像とテキストペアを手動でアノテートしたデータセットであるNewsTTを紹介した。 clipやblip-2といった事前訓練済みのビジョンと言語モデルがこのタスクに苦労していることが分かりました。 ニュースの主題は、しばしば名前付きエンティティや固有名詞を含むため、事前訓練されたモデルは、その視覚とテキストの外観にマッチすることができない。 そこで本研究では,テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。 我々は、ニューステキストと、その名前のついたエンティティを置き換えた反事実を対比する学習が、ターゲットタスクにおけるクロスモーダルマッチング能力を高めることができると仮定する。 NewsTTを用いた評価実験では、CLIPやBLIP-2といった事前学習モデルよりもCFT-CLIPの方が優れていた。 私たちのコードとデータは、論文が受け入れられた後、一般公開されます。

This paper delves into the critical challenge of understanding the representativeness of news thumbnail images, which often serve as the first visual engagement for readers when an article is disseminated on social media. We focus on whether a news image represents the main subject discussed in the news text. To serve the challenge, we introduce NewsTT, a manually annotated dataset of news thumbnail image and text pairs. We found that pretrained vision and language models, such as CLIP and BLIP-2, struggle with this task. Since news subjects frequently involve named entities or proper nouns, a pretrained model could not have the ability to match its visual and textual appearances. To fill the gap, we propose CFT-CLIP, a counterfactual text-guided contrastive language-image pretraining framework. We hypothesize that learning to contrast news text with its counterfactual, of which named entities are replaced, can enhance the cross-modal matching ability in the target task. Evaluation experiments using NewsTT show that CFT-CLIP outperforms the pretrained models, such as CLIP and BLIP-2. Our code and data will be made accessible to the public after the paper is accepted.
翻訳日:2024-02-22 12:09:32 公開日:2024-02-21
# InSaAF: 正確性と公正性による安全性の確立 : LLMsはインド法定領域に向けて準備が整っているか?

InSaAF: Incorporating Safety through Accuracy and Fairness | Are LLMs ready for the Indian Legal Domain? ( http://arxiv.org/abs/2402.10567v3 )

ライセンス: Link先を確認
Yogesh Tripathi, Raghav Donakanti, Sahil Girhepuje, Ishan Kavathekar, Bhaskara Hanuma Vedula, Gokul S Krishnan, Shreya Goyal, Anmol Goel, Balaraman Ravindran, Ponnurangam Kumaraguru(参考訳) 近年の言語技術と人工知能の進歩により、判断の予測から要約の生成に至るまで、法域における様々なタスクを実行するために多くの言語モデルが提案されている。 その大きな可能性にもかかわらず、これらのモデルは学習し、社会的バイアスを示し、不公平な予測を行うことが証明されている。 本研究では,大規模言語モデル(LLM)の社会的要因が関与するインドの景観における法的タスクを遂行する能力について検討する。 LLMの公平性と正確性の両方をカプセル化した新しい計量である$\beta$-weighted $\textit{Legal Safety Score (LSS_{\beta}$)} を提示する。 我々は,インド社会における様々な格差の軸に関する課題と公正な展示において,その性能を考慮し,LCMsの安全性を評価する。 LLaMAとLLaMA--2モデルのタスク性能と公平性スコアは、提案されたLSS_{\beta}$メトリックが、法分野における安全な使用のためのモデルの可読性を効果的に決定できることを示している。また、偏見を緩和し、モデルの安全性を改善するための潜在的方法として、特別法データセットを利用した微調整パイプラインを提案する。LLaMAとLLaMA--2モデルの微調整手順は、LSS_{\beta}$を増大させ、インドの法域におけるユーザビリティを向上させる。 私たちのコードは公開されています。

Recent advancements in language technology and Artificial Intelligence have resulted in numerous Language Models being proposed to perform various tasks in the legal domain ranging from predicting judgments to generating summaries. Despite their immense potential, these models have been proven to learn and exhibit societal biases and make unfair predictions. In this study, we explore the ability of Large Language Models (LLMs) to perform legal tasks in the Indian landscape when social factors are involved. We present a novel metric, $\beta$-weighted $\textit{Legal Safety Score ($LSS_{\beta}$)}$, which encapsulates both the fairness and accuracy aspects of the LLM. We assess LLMs' safety by considering its performance in the $\textit{Binary Statutory Reasoning}$ task and its fairness exhibition with respect to various axes of disparities in the Indian society. Task performance and fairness scores of LLaMA and LLaMA--2 models indicate that the proposed $LSS_{\beta}$ metric can effectively determine the readiness of a model for safe usage in the legal sector. We also propose finetuning pipelines, utilising specialised legal datasets, as a potential method to mitigate bias and improve model safety. The finetuning procedures on LLaMA and LLaMA--2 models increase the $LSS_{\beta}$, improving their usability in the Indian legal domain. Our code is publicly released.
翻訳日:2024-02-22 12:08:48 公開日:2024-02-21
# SAGMAN: マニフォールド上のグラフニューラルネットワークの安定性解析

SAGMAN: Stability Analysis of Graph Neural Networks on the Manifolds ( http://arxiv.org/abs/2402.08653v3 )

ライセンス: Link先を確認
Wuxinlin Cheng, Chenhui Deng, Ali Aghdaei, Zhiru Zhang, Zhuo Feng(参考訳) 現代のグラフニューラルネットワーク(GNN)は入力グラフ構造やノードの特徴の変化に敏感であり、予測不可能な振る舞いや性能低下をもたらす可能性がある。 本稿では,GNNの安定性を調べるためのSAGMANと呼ばれるスペクトルフレームワークを提案する。 この枠組みは、入力多様体と出力多様体の間のGNNの非線形写像から生じる距離歪みを評価し、入力多様体上の2つの近傍ノードを(GNNモデルを介して)出力多様体上の2つの離れたノードにマッピングした場合、大きな距離歪みを示し、したがってGNNの安定性が低下する。 本稿では,スペクトルグラフ埋め込みと確率的グラフィカルモデル(pgms)を用いて,低次元の入出力グラフベース多様体を有意な安定性解析のために作成する,距離保存グラフ次元縮小(gdr)手法を提案する。 SAGMANは様々なエッジや特徴摂動を受ける場合,各ノードの安定性を効果的に評価し,GNNの安定性を評価するためのスケーラブルなアプローチを提供し,レコメンデーションシステム内のアプリケーションに拡張する。 さらに,下流タスク,特にgnnの安定性向上と敵対的標的攻撃の促進に有用性を示す。

Modern graph neural networks (GNNs) can be sensitive to changes in the input graph structure and node features, potentially resulting in unpredictable behavior and degraded performance. In this work, we introduce a spectral framework known as SAGMAN for examining the stability of GNNs. This framework assesses the distance distortions that arise from the nonlinear mappings of GNNs between the input and output manifolds: when two nearby nodes on the input manifold are mapped (through a GNN model) to two distant ones on the output manifold, it implies a large distance distortion and thus a poor GNN stability. We propose a distance-preserving graph dimension reduction (GDR) approach that utilizes spectral graph embedding and probabilistic graphical models (PGMs) to create low-dimensional input/output graph-based manifolds for meaningful stability analysis. Our empirical evaluations show that SAGMAN effectively assesses the stability of each node when subjected to various edge or feature perturbations, offering a scalable approach for evaluating the stability of GNNs, extending to applications within recommendation systems. Furthermore, we illustrate its utility in downstream tasks, notably in enhancing GNN stability and facilitating adversarial targeted attacks.
翻訳日:2024-02-22 12:08:15 公開日:2024-02-21
# グループ化データを用いた単一パラメータパレート分布の末尾指数のロバスト推定

Robust Estimation of the Tail Index of a Single Parameter Pareto Distribution from Grouped Data ( http://arxiv.org/abs/2401.14593v4 )

ライセンス: Link先を確認
Chudamani Poudyal(参考訳) 多くの頑健な推定器は、完全に観測された基底損失重度サンプルデータセットが利用可能である場合に、最大極大推定器(MLE)の代替として存在する。 しかしながら、mle のロバストな代替案の選択肢は、最小二乗法、最小ヘリング距離法、最適有界影響関数などの一握りの方法だけで、グループ化された損失重大データを扱う場合、大幅に制限される。 本稿では,グループ化データからパレート分布のテール指標を推定するために,新しいロバストな推定手法である断続モーメント法(mtum)を提案する。 MTuMの推論正当性は、中心極限定理を用いて、包括的なシミュレーション研究を通じて検証することによって確立される。

Numerous robust estimators exist as alternatives to the maximum likelihood estimator (MLE) when a completely observed ground-up loss severity sample dataset is available. However, the options for robust alternatives to MLE become significantly limited when dealing with grouped loss severity data, with only a handful of methods like least squares, minimum Hellinger distance, and optimal bounded influence function available. This paper introduces a novel robust estimation technique, the Method of Truncated Moments (MTuM), specifically designed to estimate the tail index of a Pareto distribution from grouped data. Inferential justification of MTuM is established by employing the central limit theorem and validating them through a comprehensive simulation study.
翻訳日:2024-02-22 12:07:51 公開日:2024-02-21
# LLMを用いた汎用人工物操作のための運動認識プロンプト

Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs ( http://arxiv.org/abs/2311.02847v4 )

ライセンス: Link先を確認
Wenke Xia, Dong Wang, Xincheng Pang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li(参考訳) 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。 シミュレーションにおける実証や強化学習からの模倣学習に焦点が当てられているが、実世界のデータ収集と精密物体シミュレーションの禁止コストのため、これらの研究が多種多様な調音オブジェクトにまたがる広範な適応性を実現することは依然として困難である。 近年,大規模言語モデル(llm)の強固な文脈学習能力を活用してロボット操作を一般化しようとする研究が数多く行われているが,そのほとんどは高レベルなタスク計画と低レベルロボット制御の側面に焦点を当てている。 本研究では,物体の運動的構造が操作の仕方を決定するという考え方に基づいて,物体の運動的知識によってLLMを誘導し,低レベルな運動軌跡を発生させ,様々な物体の操作を支援する機構を提案する。 異なる物体の運動構造を持つLLMを効果的に促すため,各種の関節と接触位置を包含した統一的なテキスト記述として,多言語で表現された物体を表現した統一的な運動情報解析器を設計する。 この統一的な記述に基づいて、キネマティック・アウェア・プランナーモデルが提案され、設計されたキネマティック・アウェア・チェーン・オブ・シンセサイザー法による正確な3次元操作経路ポイントを生成する。 16の異なるカテゴリにまたがる48のインスタンスを評価したところ、我々のフレームワークは従来の手法を8つのカテゴリで上回るだけでなく、8つの未確認対象カテゴリに対して強力なゼロショット能力を示した。 さらに、7つの異なるオブジェクトカテゴリに関する実世界の実験は、実践シナリオにおける我々のフレームワークの適応性を証明する。 コードはhttps://github.com/gewu-lab/llm_articulated_object_manipulation/tree/mainでリリースされる。

Generalizable articulated object manipulation is essential for home-assistant robots. Recent efforts focus on imitation learning from demonstrations or reinforcement learning in simulation, however, due to the prohibitive costs of real-world data collection and precise object simulation, it still remains challenging for these works to achieve broad adaptability across diverse articulated objects. Recently, many works have tried to utilize the strong in-context learning ability of Large Language Models (LLMs) to achieve generalizable robotic manipulation, but most of these researches focus on high-level task planning, sidelining low-level robotic control. In this work, building on the idea that the kinematic structure of the object determines how we can manipulate it, we propose a kinematic-aware prompting framework that prompts LLMs with kinematic knowledge of objects to generate low-level motion trajectory waypoints, supporting various object manipulation. To effectively prompt LLMs with the kinematic structure of different objects, we design a unified kinematic knowledge parser, which represents various articulated objects as a unified textual description containing kinematic joints and contact location. Building upon this unified description, a kinematic-aware planner model is proposed to generate precise 3D manipulation waypoints via a designed kinematic-aware chain-of-thoughts prompting method. Our evaluation spanned 48 instances across 16 distinct categories, revealing that our framework not only outperforms traditional methods on 8 seen categories but also shows a powerful zero-shot capability for 8 unseen articulated object categories. Moreover, the real-world experiments on 7 different object categories prove our framework's adaptability in practical scenarios. Code is released at https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main.
翻訳日:2024-02-22 12:07:36 公開日:2024-02-21
# MiLe Loss: 生成言語モデルにおける学習困難のバイアスを緩和する新たな損失

MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models ( http://arxiv.org/abs/2310.19531v5 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu(参考訳) 生成言語モデルは、通常、前のものから次のトークン(サブワード/ワード/フレーズ)を予測することによって、大きなテキストコーパスで事前訓練される。 最近の研究は、下流タスクにおける大規模な生成言語モデルの印象的な性能を実証している。 しかし、既存の生成言語モデルは、訓練中にテキストコーパスに固有の課題、すなわち頻繁なトークンと頻繁なトークンの不均衡を無視している。 これは、言語モデルが一般的で簡単に学習できるトークンに支配され、希少で難解なトークンを見渡すことができる。 そこで本稿では,トークンによる学習難易度を緩和するMiLe Loss関数を提案する。 学習中,語彙上の予測確率分布の情報エントロピーに応じて,to-be-learnedトークンの学習難易度を動的に評価することができる。 その後、トレーニング損失を適応的にスケーリングし、モデルをより理解の難しいトークンに集中させようとする。 Pileデータセットでは、468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。 実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。

Generative language models are usually pretrained on large text corpus via predicting the next token (i.e., sub-word/word/phrase) given the previous ones. Recent works have demonstrated the impressive performance of large generative language models on downstream tasks. However, existing generative language models generally neglect an inherent challenge in text corpus during training, i.e., the imbalance between frequent tokens and infrequent ones. It can lead a language model to be dominated by common and easy-to-learn tokens, thereby overlooking the infrequent and difficult-to-learn ones. To alleviate that, we propose a MiLe Loss function for mitigating the bias of learning difficulties with tokens. During training, it can dynamically assess the learning difficulty of a to-be-learned token, according to the information entropy of the corresponding predicted probability distribution over the vocabulary. Then it scales the training loss adaptively, trying to lead the model to focus more on the difficult-to-learn tokens. On the Pile dataset, we train generative language models at different scales of 468M, 1.2B, and 6.7B parameters. Experiments reveal that models incorporating the proposed MiLe Loss can gain consistent performance improvement on downstream benchmarks.
翻訳日:2024-02-22 12:06:59 公開日:2024-02-21
# 拡散モデルのためのタスクルーティングのDenoising

Denoising Task Routing for Diffusion Models ( http://arxiv.org/abs/2310.07138v3 )

ライセンス: Link先を確認
Byeongjun Park, Sangmin Woo, Hyojun Go, Jin-Young Kim, Changick Kim(参考訳) 拡散モデルは、マルチタスク学習(mtl)の原則を自然に具現化し、多段階の分断過程を学習することで、高度に現実的な画像を生成する。 拡散モデルとMLLの間には固有の関係があるが、MTLを拡散モデルの枠組みに明示的に組み込むニューラルネットワークの設計には未解明領域が残っている。 本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)を提案する。 タスク親和性(Task Affinity): DTRは、隣接する時間ステップにおけるタスクに対する同様のチャネルを活性化し、隣接する時間ステップにおけるタスク間の固有の強い親和性を利用して、スライディングウィンドウとしてアクティブなチャネルをシフトする。 2) タスク重み: 雑音化プロセスの初期段階(高い時間ステップ)において、dtrはより多くのタスク固有のチャネルを割り当て、拡散モデルが初期段階でグローバル構造と知覚的にリッチなコンテンツの再構築を優先し、後段の単純なノイズ除去に重点を置くという洞察を生かした。 実験の結果,DTRはパラメータを追加することなく,異なる評価プロトコル間の拡散モデルの性能を連続的に向上するだけでなく,学習の収束を促進させることがわかった。 最後に、我々のアーキテクチャアプローチと既存のMTL最適化手法の相補性を示し、拡散訓練の文脈におけるMTLのより完全なビューを提供する。 この相補性を生かして,7Mから2Mまでのトレーニングイテレーションを短縮したDiT-XLの小型化を実現した。

Diffusion models generate highly realistic images by learning a multi-step denoising process, naturally embodying the principles of multi-task learning (MTL). Despite the inherent connection between diffusion models and MTL, there remains an unexplored area in designing neural architectures that explicitly incorporate MTL into the framework of diffusion models. In this paper, we present Denoising Task Routing (DTR), a simple add-on strategy for existing diffusion model architectures to establish distinct information pathways for individual tasks within a single architecture by selectively activating subsets of channels in the model. What makes DTR particularly compelling is its seamless integration of prior knowledge of denoising tasks into the framework: (1) Task Affinity: DTR activates similar channels for tasks at adjacent timesteps and shifts activated channels as sliding windows through timesteps, capitalizing on the inherent strong affinity between tasks at adjacent timesteps. (2) Task Weights: During the early stages (higher timesteps) of the denoising process, DTR assigns a greater number of task-specific channels, leveraging the insight that diffusion models prioritize reconstructing global structure and perceptually rich contents in earlier stages, and focus on simple noise removal in later stages. Our experiments reveal that DTR not only consistently boosts diffusion models' performance across different evaluation protocols without adding extra parameters but also accelerates training convergence. Finally, we show the complementarity between our architectural approach and existing MTL optimization techniques, providing a more complete view of MTL in the context of diffusion training. Significantly, by leveraging this complementarity, we attain matched performance of DiT-XL using the smaller DiT-L with a reduction in training iterations from 7M to 2M.
翻訳日:2024-02-22 12:06:40 公開日:2024-02-21
# 深層強化学習における報酬機械抽象化の文脈的事前計画

Contextual Pre-planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning ( http://arxiv.org/abs/2307.05209v4 )

ライセンス: Link先を確認
Guy Azran, Mohamad H. Danesh, Stefano V. Albrecht, Sarah Keren(参考訳) 近年の研究では、深層強化学習(DRL)エージェントは、訓練されたタスクに過度に適合し、小さな環境変化に適応できない傾向が示されている。 未知のタスクに移行する際の学習の迅速化を目的として,現在のタスクを,現在のタスクの報酬やダイナミクスに基づいてサブタスクを誘導する状態マシン抽象化を用いて表現する手法を提案する。 本手法は,現在の抽象状態からの最適遷移の象徴表現をエージェントに与え,それらの遷移を達成するための報酬を与える。 これらの表現はタスク間で共有され、エージェントは以前に遭遇したシンボルや遷移の知識を活用できるため、転送が促進される。 実験結果から, 種々の領域におけるサンプル効率と少数ショット転送の改善が示された。

Recent studies show that deep reinforcement learning (DRL) agents tend to overfit to the task on which they were trained and fail to adapt to minor environment changes. To expedite learning when transferring to unseen tasks, we propose a novel approach to representing the current task using reward machines (RMs), state machine abstractions that induce subtasks based on the current task's rewards and dynamics. Our method provides agents with symbolic representations of optimal transitions from their current abstract state and rewards them for achieving these transitions. These representations are shared across tasks, allowing agents to exploit knowledge of previously encountered symbols and transitions, thus enhancing transfer. Empirical results show that our representations improve sample efficiency and few-shot transfer in a variety of domains.
翻訳日:2024-02-22 12:06:09 公開日:2024-02-21
# ユーザ行動モデリングと確率計画による大型電気自動車充電ステーションの制御

Controlling Large Electric Vehicle Charging Stations via User Behavior Modeling and Stochastic Programming ( http://arxiv.org/abs/2402.13224v2 )

ライセンス: Link先を確認
Alban Puech, Tristan Rigaut, William Templier, Maud Tournoud(参考訳) 本稿では,スロット電力制限,契約しきい値超過によるペナルティ,電気自動車(EV)の早期切断といった実世界の制約を取り入れた電気自動車充電ステーション(EVCS)モデルを提案する。 本稿では,不確実性下でのEVCS制御の問題の定式化と,ユーザが提供する情報,すなわちモデル予測制御と2段階確率プログラミングを利用する2つの多段階確率プログラミング手法を提案する。 このモデルは、充電セッション開始時と終了時、およびエネルギー需要における不確実性に対処する。 日時依存確率過程に基づくユーザの行動モデルは、顧客満足度を維持しながらコスト削減を促進する。 2つの提案手法の利点は、実世界のデータセットを用いた22日間のシミュレーションを通じて、2つのベースラインに対して示される。 2段階のアプローチは、最適化のためのより多くの不確実性シナリオを考慮して、早期の切断に対して堅牢であることを示す。 電力コストよりもユーザ満足度を優先するアルゴリズムは,業界標準ベースラインと比較して,2つのユーザ満足度指標において20%と36%の改善を実現している。 さらに,ユーザ満足度とコストの最適バランスを決定づけるアルゴリズムは,2つの使用満足度指標でユーザ満足度性能の94%と84%を達成しつつ,理論的に最適であるベースラインと比較して,わずか3%の相対コスト増加を示す。

This paper introduces an Electric Vehicle Charging Station (EVCS) model that incorporates real-world constraints, such as slot power limitations, contract threshold overruns penalties, or early disconnections of electric vehicles (EVs). We propose a formulation of the problem of EVCS control under uncertainty, and implement two Multi-Stage Stochastic Programming approaches that leverage user-provided information, namely, Model Predictive Control and Two-Stage Stochastic Programming. The model addresses uncertainties in charging session start and end times, as well as in energy demand. A user's behavior model based on a sojourn-time-dependent stochastic process enhances cost reduction while maintaining customer satisfaction. The benefits of the two proposed methods are showcased against two baselines over a 22-day simulation using a real-world dataset. The two-stage approach proves robust against early disconnections, considering a more significant number of uncertainty scenarios for optimization. The algorithm prioritizing user satisfaction over electricity cost achieves a 20% and 36% improvement in two user satisfaction metrics compared to an industry-standard baseline. Additionally, the algorithm striking the best balance between cost and user satisfaction exhibits a mere 3% relative cost increase compared to the theoretically optimal baseline - for which the nonanticipativity constraint is relaxed - while attaining 94% and 84% of the user satisfaction performance in the two used satisfaction metrics.
翻訳日:2024-02-22 11:59:26 公開日:2024-02-21
# ケミカルインフォーマルな大規模無機ナノマテリアルデータセットを用いたグラフ機械学習

CHILI: Chemically-Informed Large-scale Inorganic Nanomaterials Dataset for Advancing Graph Machine Learning ( http://arxiv.org/abs/2402.13221v2 )

ライセンス: Link先を確認
Ulrik Friis-Jensen, Frederik L. Johansen, Andy S. Anker, Erik B. Dam, Kirsten M. {\O}. Jensen and Raghavendra Selvan(参考訳) グラフ機械学習(ml)の進歩は、分子の最も表現力のある表現がグラフのままであり、化学の応用によってもたらされている。 初期のグラフML法は主に小さな有機分子に焦点を当てていたが、近年、グラフMLの範囲は無機材料を含むように拡大している。 無機結晶材料の周期性と対称性のモデル化は、既存のグラフml法では対処できないユニークな課題をもたらす。 無機ナノ材料への移行は、各グラフ内のノードの規模が 10$ から 10^5$ になるにつれて複雑さが増す。 既存のグラフMLの大部分は、グラフを入力としてターゲット特性を予測することによって分子や材料を特徴づけることに焦点を当てている。 しかし、グラフMLの最もエキサイティングな応用は、その生成能力であり、現在、画像やテキストのような他のドメインと同等ではない。 化学修飾した大規模無機(chili)ナノマテリアル(chili-100k)の2つのデータセット:12個の選択された結晶型(chili-3k)から生成される一金属酸化物ナノマテリアルの中規模データセット(合計6mノード、49mエッジ)と、実験的に決定された結晶構造(chili-100k)から生成されるナノマテリアルの大規模データセット(合計183mノード、1.2bエッジ)である。 ナノマテリアル研究において,11のプロパティ予測タスクと6つの構造予測タスクを定義した。 我々は、幅広いベースライン手法の性能をベンチマークし、これらのベンチマーク結果を用いて将来の作業を必要とする領域をハイライトする。 私たちの知る限りでは、chili-3kとchili-100kは、このスケールで最初のオープンソースナノマテリアルデータセット(個々のグラフレベルとデータセット全体の両方)であり、構造的および元素的多様性を持つ唯一のナノマテリアルデータセットです。

Advances in graph machine learning (ML) have been driven by applications in chemistry as graphs have remained the most expressive representations of molecules. While early graph ML methods focused primarily on small organic molecules, recently, the scope of graph ML has expanded to include inorganic materials. Modelling the periodicity and symmetry of inorganic crystalline materials poses unique challenges, which existing graph ML methods are unable to address. Moving to inorganic nanomaterials increases complexity as the scale of number of nodes within each graph can be broad ($10$ to $10^5$). The bulk of existing graph ML focuses on characterising molecules and materials by predicting target properties with graphs as input. However, the most exciting applications of graph ML will be in their generative capabilities, which is currently not at par with other domains such as images or text. We invite the graph ML community to address these open challenges by presenting two new chemically-informed large-scale inorganic (CHILI) nanomaterials datasets: A medium-scale dataset (with overall >6M nodes, >49M edges) of mono-metallic oxide nanomaterials generated from 12 selected crystal types (CHILI-3K) and a large-scale dataset (with overall >183M nodes, >1.2B edges) of nanomaterials generated from experimentally determined crystal structures (CHILI-100K). We define 11 property prediction tasks and 6 structure prediction tasks, which are of special interest for nanomaterial research. We benchmark the performance of a wide array of baseline methods and use these benchmarking results to highlight areas which need future work. To the best of our knowledge, CHILI-3K and CHILI-100K are the first open-source nanomaterial datasets of this scale -- both on the individual graph level and of the dataset as a whole -- and the only nanomaterials datasets with high structural and elemental diversity.
翻訳日:2024-02-22 11:58:47 公開日:2024-02-21
# LLMが世界観を異にするとしたら? LLMをベースとしたエージェントによるエイリアン文明のシミュレーション

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents ( http://arxiv.org/abs/2402.13184v2 )

ライセンス: Link先を確認
Mingyu Jin, Beichen Wang, Zhaoqian Xue, Suiyuan Zhu, Wenyue Hua, Hua Tang, Kai Mei, Mengnan Du, Yongfeng Zhang(参考訳) 本研究では,人間と地球外文明の複雑な相互作用をシミュレートするために,大規模言語モデル(llm)を活用した革新的な人工知能フレームワークであるcosmoagentを紹介する。 目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の可能性を評価することである。 数理モデルと状態遷移行列を用いて,文明の発展過程を定量的に評価し,成長と飽和の重要点における今後の意思決定への洞察を提供する。 さらに、この論文は宇宙の潜在的な生活環境の多様性を認めており、様々な文明における独自の宇宙論、倫理的規範、世界観を育むことができる。 現在のLLM設計に固有の地球中心バイアスを認識し、多様な倫理的パラダイムを持つLLMの使用と、異なる道徳的原理を持つエンティティ間の相互作用をシミュレートする新しい概念を提案する。 この革新的な研究は、複雑な文明間ダイナミクスを理解する新しい方法を提供し、我々の視点を広げ、星間衝突を防ぐために不可欠な紛争解決のための新しい戦略を開拓する。 この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットもリリースしました。 コードはhttps://github.com/agiresearch/alienagentで入手できる。

In this study, we introduce "CosmoAgent," an innovative artificial intelligence framework utilizing Large Language Models (LLMs) to simulate complex interactions between human and extraterrestrial civilizations, with a special emphasis on Stephen Hawking's cautionary advice about not sending radio signals haphazardly into the universe. The goal is to assess the feasibility of peaceful coexistence while considering potential risks that could threaten well-intentioned civilizations. Employing mathematical models and state transition matrices, our approach quantitatively evaluates the development trajectories of civilizations, offering insights into future decision-making at critical points of growth and saturation. Furthermore, the paper acknowledges the vast diversity in potential living conditions across the universe, which could foster unique cosmologies, ethical codes, and worldviews among various civilizations. Recognizing the Earth-centric bias inherent in current LLM designs, we propose the novel concept of using LLMs with diverse ethical paradigms and simulating interactions between entities with distinct moral principles. This innovative research provides a new way to understand complex inter-civilizational dynamics, expanding our perspective while pioneering novel strategies for conflict resolution, crucial for preventing interstellar conflicts. We have also released the code and datasets to enable further academic investigation into this interesting area of research. The code is available at https://github.com/agiresearch/AlienAgent.
翻訳日:2024-02-22 11:57:26 公開日:2024-02-21
# CMDAG: メタファー生成を促進するためのCoTとして注釈付きグラウンドを備えた中国のメタファーデータセット

CMDAG: A Chinese Metaphor Dataset with Annotated Grounds as CoT for Boosting Metaphor Generation ( http://arxiv.org/abs/2402.13145v2 )

ライセンス: Link先を確認
Yujie Shao, Xinrong Yao, Xingwei Qu, Chenghua Lin, Shi Wang, Stephen W. Huang, Ge Zhang, Jie Fu(参考訳) メタファーは人間の言語や文学において顕著な言語装置であり、効果的なコミュニケーションを強化するために色、画像、強調を加える。 本稿では,漢文の多種多様な資料(詩文,散文,歌の歌詞など)から約2万文を抽出した,高品質な漢文メタファーコーパスを提案する。 アノテーションの正確性と一貫性を確保するため、包括的なガイドラインセットを導入します。 これらのガイドラインはメタファアノテーションの側面に対処し、例えばテナー、車両、そしてシミュラの複雑さ、擬人化、接頭辞、双曲の扱いの根拠を識別する。 伝統を破る メタファー生成に対する我々のアプローチは、従来のテノールと車両の組み合わせよりも、根拠と特徴を強調する。 地上」をCoT(Chain of Thoughts)入力として統合することで、現実世界の直感とより調和するメタファーを生成することができる。 注記付きコーパスを用いて,belle,baichuan,china-alpaca-33bなどの生成モデルをテストする。 これらのモデルは、データセットから選択したサンプルにより、より頻繁に誘導される創造的かつ流動的なメタファー文を生成することができ、中国のメタファー研究における我々のコーパスの価値を示しています。 コードはhttps://github.com/jasonshao55/ chinese_metaphor_explanationで入手できる。

Metaphor is a prominent linguistic device in human language and literature, as they add color, imagery, and emphasis to enhance effective communication. This paper introduces a large-scale high quality annotated Chinese Metaphor Corpus, which comprises around 28K sentences drawn from a diverse range of Chinese literary sources, such as poems, prose, song lyrics, etc. To ensure the accuracy and consistency of our annotations, we introduce a comprehensive set of guidelines. These guidelines address the facets of metaphor annotation, including identifying tenors, vehicles, and grounds to handling the complexities of similes, personifications, juxtapositions, and hyperboles. Breaking tradition, our approach to metaphor generation emphasizes grounds and their distinct features rather than the conventional combination of tenors and vehicles. By integrating "ground" as a CoT (Chain of Thoughts) input, we are able to generate metaphors that resonate more with real-world intuition. We test generative models such as Belle, Baichuan, and Chinese-alpaca-33B using our annotated corpus. These models are able to generate creative and fluent metaphor sentences more frequently induced by selected samples from our dataset, demonstrating the value of our corpus for Chinese metaphor research. The code is available in https://github.com/JasonShao55/Chinese_Metaphor_Explanation.
翻訳日:2024-02-22 11:57:03 公開日:2024-02-21
# テキスト要約文を用いた対話状態追跡のための効率よく効率的な会話検索

Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries ( http://arxiv.org/abs/2402.13043v2 )

ライセンス: Link先を確認
Seanie Lee, Jianpeng Cheng, Joris Driesen, Alexandru Coca, Anders Johannsen(参考訳) LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。 以前の作品では、生の対話コンテキストを検索キーとクエリとして使用しており、レトリバーは注釈付き対話で微調整され、優れたパフォーマンスを達成している。 しかし、このアプローチは、微調整データが利用できない新しいドメインや新しいアノテーション言語へのスケーリングには適していない。 この問題に対処するため,会話のテキスト要約に基づいて会話検索を行う。 LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。 LLMに基づく会話要約による余分な推論コストを回避するため、テスト会話の要約を復号することなくクエリ埋め込みを生成する軽量な会話エンコーダを蒸留する。 GPT-Neo-2.7B と LLaMA-7B/30B を用いた MultiWOZ データセットの検索手法を検証する。 実験の結果,実写DST設定において,関連するベースラインよりも有意に改善した。

Few-shot dialogue state tracking (DST) with Large Language Models (LLM) relies on an effective and efficient conversation retriever to find similar in-context examples for prompt learning. Previous works use raw dialogue context as search keys and queries, and a retriever is fine-tuned with annotated dialogues to achieve superior performance. However, the approach is less suited for scaling to new domains or new annotation languages, where fine-tuning data is unavailable. To address this problem, we handle the task of conversation retrieval based on text summaries of the conversations. A LLM-based conversation summarizer is adopted for query and key generation, which enables effective maximum inner product search. To avoid the extra inference cost brought by LLM-based conversation summarization, we further distill a light-weight conversation encoder which produces query embeddings without decoding summaries for test conversations. We validate our retrieval approach on MultiWOZ datasets with GPT-Neo-2.7B and LLaMA-7B/30B. The experimental results show a significant improvement over relevant baselines in real few-shot DST settings.
翻訳日:2024-02-22 11:56:39 公開日:2024-02-21
# 量子グラフ状態からの量子グラフニューラルネットワークのための統一プライマリフレームワーク

A unifying primary framework for quantum graph neural networks from quantum graph states ( http://arxiv.org/abs/2402.13001v2 )

ライセンス: Link先を確認
Ammar Daskin(参考訳) グラフ状態は、量子コンピュータ上の量子状態として数学的グラフを表現するために用いられる。 これらは安定化符号や直接量子ゲートや量子状態を通じて定式化することができる。 本稿では,グラフ状態に基づいて量子グラフニューラルネットワークモデルを理解し,実現可能であることを示す。 ニューラルネットワークを表現するためのパラメータ化量子回路や、量子コンピュータ上でグラフニューラルネットワークを構築するための基盤構造として使用できることを示す。

Graph states are used to represent mathematical graphs as quantum states on quantum computers. They can be formulated through stabilizer codes or directly quantum gates and quantum states. In this paper we show that a quantum graph neural network model can be understood and realized based on graph states. We show that they can be used either as a parameterized quantum circuits to represent neural networks or as an underlying structure to construct graph neural networks on quantum computers.
翻訳日:2024-02-22 11:56:20 公開日:2024-02-21
# セルフアテンションの交換によるビジュアルスタイルプロンプト

Visual Style Prompting with Swapping Self-Attention ( http://arxiv.org/abs/2402.12974v2 )

ライセンス: Link先を確認
Jaeseok Jeong, Junho Kim, Yunjey Choi, Gayoung Lee, Youngjung Uh(参考訳) テキスト・画像生成の進化する領域において、拡散モデルはコンテンツ作成の強力なツールとして現れてきた。 その顕著な能力にもかかわらず、既存のモデルは、一貫したスタイルで制御された世代を達成する上で依然として困難に直面している。 これらの課題に対処するため,我々は,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成するための新しいアプローチである \ours を提案する。 denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。 このアプローチにより、視覚的なスタイルを微調整することなく、生成したイメージが忠実なスタイルを維持することができる。 提案手法は,様々なスタイルやテキストプロンプトに対する広範な評価を通じて,既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストプロンプトに最も正確に一致することを保証する。 プロジェクトページはhttps://curryjung.github.io/visualstyleprompt/。

In the evolving domain of text-to-image generation, diffusion models have emerged as powerful tools in content creation. Despite their remarkable capability, existing models still face challenges in achieving controlled generation with a consistent style, requiring costly fine-tuning or often inadequately transferring the visual elements due to content leakage. To address these challenges, we propose a novel approach, \ours, to produce a diverse range of images while maintaining specific style elements and nuances. During the denoising process, we keep the query from original features while swapping the key and value with those from reference features in the late self-attention layers. This approach allows for the visual style prompting without any fine-tuning, ensuring that generated images maintain a faithful style. Through extensive evaluation across various styles and text prompts, our method demonstrates superiority over existing approaches, best reflecting the style of the references and ensuring that resulting images match the text prompts most accurately. Our project page is available https://curryjung.github.io/VisualStylePrompt/.
翻訳日:2024-02-22 11:56:11 公開日:2024-02-21
# formulaqa: 公式に基づく数値推論のための質問応答データセット

FormulaQA: A Question Answering Dataset for Formula-Based Numerical Reasoning ( http://arxiv.org/abs/2402.12692v2 )

ライセンス: Link先を確認
Xiao Li, Sichen Liu, Bolin Zhu, Yin Zhu, Yiwei Liu, Gong Cheng(参考訳) 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。 しかし、既存の数値推論データセットは、推論ステップで使われる公式をはっきりと示さない。 このギャップを埋めるため,中学生の物理実験からフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。 さらに, ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, 外部公式データベースを提供する際に, 検索拡張 LLM を用いたアプローチについて検討した。 また,サイズが2bを超えない小型モデルについても微調整を行った。 我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の可能性を示すものである。

The application of formulas is a fundamental ability of humans when addressing numerical reasoning problems. However, existing numerical reasoning datasets seldom explicitly indicate the formulas employed during the reasoning steps. To bridge this gap, we propose a question answering dataset for formula-based numerical reasoning called FormulaQA, from junior high school physics examinations. We further conduct evaluations on LLMs with size ranging from 7B to over 100B parameters utilizing zero-shot and few-shot chain-of-thoughts methods and we explored the approach of using retrieval-augmented LLMs when providing an external formula database. We also fine-tune on smaller models with size not exceeding 2B. Our empirical findings underscore the significant potential for improvement in existing models when applied to our complex, formula-driven FormulaQA.
翻訳日:2024-02-22 11:55:51 公開日:2024-02-21
# StyleDubber: 映画ダビングのためのマルチスケールスタイル学習を目指して

StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing ( http://arxiv.org/abs/2402.12636v2 )

ライセンス: Link先を確認
Gaoxiang Cong, Yuankai Qi, Liang Li, Amin Beheshti, Zhedong Zhang, Anton van den Hengel, Ming-Hsuan Yang, Chenggang Yan, Qingming Huang(参考訳) 脚本が与えられた場合、映画ダビング(Visual Voice Cloning, V2C)の課題は、基準音声トラックのトーンに基づいて、時間と感情の両方でビデオとうまく一致した音声を生成することである。 既存の最先端V2Cモデルは、時間的アライメント問題を解決するが、不完全音素発音と不完全性安定性をもたらすビデオフレーム間の分割に従って、スクリプト内の音素を分解する。 そこで本稿では,この問題を解決するために,学習をフレームレベルから音素レベルに切り替えるstyledubberを提案する。 It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. 2つの主要なベンチマークであるV2CとGridの大規模な実験は、提案手法の現況と比較して好適な性能を示した。 ソースコードとトレーニングされたモデルは一般公開される予定だ。

Given a script, the challenge in Movie Dubbing (Visual Voice Cloning, V2C) is to generate speech that aligns well with the video in both time and emotion, based on the tone of a reference audio track. Existing state-of-the-art V2C models break the phonemes in the script according to the divisions between video frames, which solves the temporal alignment problem but leads to incomplete phoneme pronunciation and poor identity stability. To address this problem, we propose StyleDubber, which switches dubbing learning from the frame level to phoneme level. It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. Extensive experiments on two of the primary benchmarks, V2C and Grid, demonstrate the favorable performance of the proposed method as compared to the current state-of-the-art. The source code and trained models will be released to the public.
翻訳日:2024-02-22 11:55:36 公開日:2024-02-21
# PARCv2:時空間ダイナミクスモデリングのための物理対応リカレント畳み込みニューラルネットワーク

PARCv2: Physics-aware Recurrent Convolutional Neural Networks for Spatiotemporal Dynamics Modeling ( http://arxiv.org/abs/2402.12503v2 )

ライセンス: Link先を確認
Phong C.H. Nguyen, Xinlun Cheng, Shahab Azarfar, Pradeep Seshadri, Yen T. Nguyen, Munho Kim, Sanghun Choi, H.S. Udaykumar, Stephen Baek(参考訳) 非定常, 高速な過渡的, 対流に支配される物理問題をモデル化することは, 物理認識深層学習(PADL)の課題である。 複素系の物理学は、偏微分方程式(PDE)と非線型構造を持つ補助構成モデルの大きなシステムと、鋭い勾配と急速に変形する材料界面を示す進化状態場によって制御される。 本稿では,汎用非線形場発展問題のモデル化に汎用的かつ汎用的な帰納的バイアスアプローチについて検討する。 本研究は、一般物理系の時空間力学を誘導的にモデル化する微分器積分器アーキテクチャを組み込んだ最近の物理認識再帰畳み込み(PARC)に焦点を当てる。 PARCの能力を拡張して、非定常、過渡、および対流支配のシステムをシミュレートする。 拡張モデルは PARCv2 と呼ばれ、拡散-反応-拡散方程式をモデル化する微分作用素と、安定な長期予測のためのハイブリッド積分解法を備える。 parcv2は、流体力学における標準的なベンチマーク問題、すなわちバーガーとナビエ・ストークス方程式の両方でテストされ、エネルギー材料におけるより複雑な衝撃誘起反応問題に適用される。 本稿では,parcv2の挙動を他の物理形および学習バイアスモデルと比較し,非定常および随伴支配的ダイナミクスレジームをモデル化する可能性を示す。

Modeling unsteady, fast transient, and advection-dominated physics problems is a pressing challenge for physics-aware deep learning (PADL). The physics of complex systems is governed by large systems of partial differential equations (PDEs) and ancillary constitutive models with nonlinear structures, as well as evolving state fields exhibiting sharp gradients and rapidly deforming material interfaces. Here, we investigate an inductive bias approach that is versatile and generalizable to model generic nonlinear field evolution problems. Our study focuses on the recent physics-aware recurrent convolutions (PARC), which incorporates a differentiator-integrator architecture that inductively models the spatiotemporal dynamics of generic physical systems. We extend the capabilities of PARC to simulate unsteady, transient, and advection-dominant systems. The extended model, referred to as PARCv2, is equipped with differential operators to model advection-reaction-diffusion equations, as well as a hybrid integral solver for stable, long-time predictions. PARCv2 is tested on both standard benchmark problems in fluid dynamics, namely Burgers and Navier-Stokes equations, and then applied to more complex shock-induced reaction problems in energetic materials. We evaluate the behavior of PARCv2 in comparison to other physics-informed and learning bias models and demonstrate its potential to model unsteady and advection-dominant dynamics regimes.
翻訳日:2024-02-22 11:55:16 公開日:2024-02-21
# 廃棄物を価値に変える:MoEのルーターの1万ドル超の発明

Turn Waste into Worth: Rectifying Top-$k$ Router of MoE ( http://arxiv.org/abs/2402.12399v2 )

ライセンス: Link先を確認
Zhiyuan Zeng, Qipeng Guo, Zhaoye Fei, Zhangyue Yin, Yunhua Zhou, Linyang Li, Tianxiang Sun, Hang Yan, Dahua Lin, Xipeng Qiu(参考訳) sparse mixed of experts (moe)モデルはその計算効率のために大きな言語モデルのトレーニングに人気がある。 しかし、一般的なトップ$kのルーティングメカニズムは、アンバランスなルーティングのために冗長性計算とメモリコストに悩まされている。 一部の専門家はオーバーフローを行い、トークンを超えるものを削除する。 一部の専門家は、ゼロでパットされている空いているが、モデルのパフォーマンスに悪影響を及ぼす。 落下したトークンとパディングに対処するため,GPU内整流とFill-in整流を含むRectify-Routerを提案する。 Intra-GPU Rectificationはドロップトークンを処理し、GPU間の通信を避けるために、GPU内のエキスパートに効率的にルーティングする。 Fill-in Rectificationは、パディングトークンを高いルーティングスコアを持つトークンに置き換えることでパディングに対処する。 実験の結果,GPU内整流法とFill-in整流法は,それぞれドロップトークンとパディングを効果的に処理できることがわかった。 さらに、これらの組み合わせはバニラトップ1ルータの精度を4.7%上回る優れた性能を実現している。

Sparse Mixture of Experts (MoE) models are popular for training large language models due to their computational efficiency. However, the commonly used top-$k$ routing mechanism suffers from redundancy computation and memory costs due to the unbalanced routing. Some experts are overflow, where the exceeding tokens are dropped. While some experts are vacant, which are padded with zeros, negatively impacting model performance. To address the dropped tokens and padding, we propose the Rectify-Router, comprising the Intra-GPU Rectification and the Fill-in Rectification. The Intra-GPU Rectification handles dropped tokens, efficiently routing them to experts within the GPU where they are located to avoid inter-GPU communication. The Fill-in Rectification addresses padding by replacing padding tokens with the tokens that have high routing scores. Our experimental results demonstrate that the Intra-GPU Rectification and the Fill-in Rectification effectively handle dropped tokens and padding, respectively. Furthermore, the combination of them achieves superior performance, surpassing the accuracy of the vanilla top-1 router by 4.7%.
翻訳日:2024-02-22 11:54:51 公開日:2024-02-21
# Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! ( http://arxiv.org/abs/2402.12343v2 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao(参考訳) 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。 しかし,本研究では,安全アライメントが敵操作下で有害な成果を意図せず促進できることを実証する推論時間攻撃フレームワークを提案する。 Emulated Disalignment (ED)という名前のこのフレームワークは、アウトプット空間でトレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせて、追加のトレーニングなしで有害な言語モデルを生成する。 3つのデータセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)にわたるED実験により、EDはトレーニング済みモデルの有害性を2倍にし、強力なベースラインを上回り、48のサブセットのうち43の有害度を大きなマージンで達成した。 本研究は,安全アライメント後においても,オープンソース言語モデルの実践を再評価することの重要性を強調した。

Large language models (LLMs) need to undergo safety alignment to ensure safe conversations with humans. However, in this work, we introduce an inference-time attack framework, demonstrating that safety alignment can also unintentionally facilitate harmful outcomes under adversarial manipulation. This framework, named Emulated Disalignment (ED), adversely combines a pair of open-source pre-trained and safety-aligned language models in the output space to produce a harmful language model without additional training. Our experiments with ED across three datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rate in 43 out of 48 evaluation subsets by a large margin. Crucially, our findings highlight the importance of reevaluating the practice of open-sourcing language models even after safety alignment.
翻訳日:2024-02-22 11:54:31 公開日:2024-02-21
# コンピュータビジョンとシミュレーションにおけるサラウンドビュー魚眼光学:調査と課題

Surround-View Fisheye Optics in Computer Vision and Simulation: Survey and Challenges ( http://arxiv.org/abs/2402.12041v2 )

ライセンス: Link先を確認
Daniel Jakab, Brian Michael Deegan, Sushil Sharma, Eoin Martino Grua, Jonathan Horgan, Enda Ward, Pepijn Van De Ven, Anthony Scanlan, Ciar\'an Eising(参考訳) 本稿では,自動走行およびADASにおけるコンピュータビジョンタスクにおける光学工芸品の影響に着目し,自動車のサラウンドビュー魚眼光学に関する調査を行う。 自動車産業は最新のコンピュータビジョンを適用し、道路の安全性を高め、自動運転機能を提供する。 車両のカメラシステムを使用する場合、低速操縦、自動駐車、コクーンセンシングなどの領域において、車両の周囲全体を把握するための広い視野が必要である。 しかし、サラウンドビューカメラにおける重要な課題は、文献にほとんど注目されていないフィッシュアイカメラの光学的収差である。 さらに、車両自動化における安全クリティカルなシナリオをテストするために、包括的なデータセットが必要である。 業界は、サラウンドビューカメラ画像を用いた合成データセットを作成するための費用対効果の戦略としてシミュレーションに転換した。 シミュレーション手法(モデル駆動・データ駆動シミュレーションなど)について検討し,実世界の光学性能をモデル化するシミュレータの能力(あるいはその欠如)について考察する。 概して,本論文では,車載魚眼データセットの光学収差と模擬魚眼データセットの光学的現実感の限界に注目し,サラウンドビュー光学系におけるコンピュータビジョンに着目した。

In this paper, we provide a survey on automotive surround-view fisheye optics, with an emphasis on the impact of optical artifacts on computer vision tasks in autonomous driving and ADAS. The automotive industry has advanced in applying state-of-the-art computer vision to enhance road safety and provide automated driving functionality. When using camera systems on vehicles, there is a particular need for a wide field of view to capture the entire vehicle's surroundings, in areas such as low-speed maneuvering, automated parking, and cocoon sensing. However, one crucial challenge in surround-view cameras is the strong optical aberrations of the fisheye camera, which is an area that has received little attention in the literature. Additionally, a comprehensive dataset is needed for testing safety-critical scenarios in vehicle automation. The industry has turned to simulation as a cost-effective strategy for creating synthetic datasets with surround-view camera imagery. We examine different simulation methods (such as model-driven and data-driven simulations) and discuss the simulators' ability (or lack thereof) to model real-world optical performance. Overall, this paper highlights the optical aberrations in automotive fisheye datasets, and the limitations of optical reality in simulated fisheye datasets, with a focus on computer vision in surround-view optical systems.
翻訳日:2024-02-22 11:53:45 公開日:2024-02-21