このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240203となっている論文です。

PDF登録状況(公開日: 20240203)

TitleAuthorsAbstract論文公表日・翻訳日
# 大規模言語モデルにおける機械学習

Machine Unlearning in Large Language Models ( http://arxiv.org/abs/2404.16841v1 )

ライセンス: Link先を確認
Kongyang Chen, Zixin Wang, Bing Mi, Waixi Liu, Shaowei Wang, Xiaojun Ren, Jiaxing Shen, (参考訳) 近年,大規模言語モデル (LLM) が注目され,様々なアプリケーション領域のインテリジェントなコンテンツを自動的に生成する能力に注目が集まっている。 しかし、LSMは依然として重大なセキュリティとプライバシーの問題に悩まされている。 例えば、LLMはハッキング攻撃やターゲットのプロンプトからユーザーのプライバシーを公開する可能性がある。 この問題に対処するために,LLMに新しい機械学習フレームワークを導入する。 我々の目標は、LLMが標準出力能力を保ちつつ、有害、幻覚、プライバシーを侵害する応答を生じさせないようにすることである。 これを実現するために、未学習の対話をピンポイントする評価モデルを用いる。 また、モデルの負の損失として機能するために距離損失を確立し、それを以前の望ましくない出力から逸脱させる。 さらに、予測出力のクラスタは、正の損失を定式化し、その推論能力と性能を損なうことなく、モデル出力を好ましい結果に導く。 実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。

Recently, large language models (LLMs) have emerged as a notable field, attracting significant attention for its ability to automatically generate intelligent contents for various application domains. However, LLMs still suffer from significant security and privacy issues. For example, LLMs might expose user privacy from hacking attacks or targeted prompts. To address this problem, this paper introduces a novel machine unlearning framework into LLMs. Our objectives are to make LLMs not produce harmful, hallucinatory, or privacy-compromising responses, while retaining their standard output capabilities. To accomplish this, we use an evaluative model to pinpoint dialogues needing unlearning. We also establish a distance loss to function as the model's negative loss, diverting it from previous undesirable outputs. Furthermore, we determine the expected output's cluster mean to formulate a positive loss, directing the model's outputs toward preferable outcomes without compromising its reasoning abilities and performance. Experimental results show that our approach effectively meets unlearning objectives without substantially compromising model performance.
翻訳日:2024-07-01 11:49:01 公開日:2024-02-03
# スマイッシング研究における人的要因の解明とメッセージ属性

Unveiling Human Factors and Message Attributes in a Smishing Study ( http://arxiv.org/abs/2311.06911v3 )

ライセンス: Link先を確認
Daniel Timko, Daniel Hernandez Castillo, Muhammad Lutfor Rahman, (参考訳) スマートフォンの人気が高まっている中、これらのデバイスに関する脅威はますます高まっている。 SMS(Short Message Service)とフィッシングの組み合わせであるSmishingは、悪意あるアクターがユーザーを欺くために使う危険なサイバー脅威として現れ、機密情報やお金、マルウェアをモバイルデバイスにインストールすることを目的としている。 近年のスマイシング攻撃の増加にもかかわらず、ユーザーが偽メッセージと現実を区別する能力に寄与する要因を理解することを目的とした研究はほとんどない。 この知識のギャップに対処するため,我々は214名の参加者を対象に,スマイシング検出に関するオンライン調査を行った。 本研究では,16個のSMSスクリーンショットを提示し,異なる要因がスマイシング検出における意思決定プロセスに与える影響を評価した。 次に,参加者のセキュリティ態度,行動,知識に関する情報を収集するための追跡調査を行った。 その結果, 注意行動スコアとセキュリティ行動スコアは, スマイシングメッセージの同定における参加者の精度に有意な影響を及ぼすことがわかった。 興味深いことに、参加者は偽のメッセージで65.6%、偽のメッセージで44.6%の精度で、偽のメッセージから本物のメッセージを見つけるのが困難であることがわかりました。 我々の研究は、スマイシング攻撃に遭遇し軽減するための積極的な戦略の開発に不可欠である。 スマイシング検出に影響を与える要因を理解することによって、このような脅威に対するユーザのレジリエンスを高め、より安全なデジタル環境を構築することを目指している。

With the booming popularity of smartphones, threats related to these devices are increasingly on the rise. Smishing, a combination of SMS (Short Message Service) and phishing has emerged as a treacherous cyber threat used by malicious actors to deceive users, aiming to steal sensitive information, money or install malware on their mobile devices. Despite the increase in smishing attacks in recent years, there are very few studies aimed at understanding the factors that contribute to a user's ability to differentiate real from fake messages. To address this gap in knowledge, we have conducted an online survey on smishing detection with 214 participants. In this study, we presented them with 16 SMS screenshots and evaluated how different factors affect their decision making process in smishing detection. Next, we conducted a follow-up survey to garner information on the participants' security attitudes, behavior and knowledge. Our results highlighted that attention and security behavioral scores had a significant impact on participants' accuracy in identifying smishing messages. Interestingly, we found that participants had more difficulty identifying real messages from fake ones, with an accuracy of 65.6% with fake messages and 44.6% with real messages. Our study is crucial in developing proactive strategies to encounter and mitigate smishing attacks. By understanding what factors influence smishing detection, we aim to bolster users' resilience against such threats and create a safer digital environment for all.
翻訳日:2024-03-18 23:32:03 公開日:2024-02-03
# デジタル画像・ビデオ鑑定の最近の進歩, 反鑑定, 反鑑定

Recent Advances in Digital Image and Video Forensics, Anti-forensics and Counter Anti-forensics ( http://arxiv.org/abs/2402.02089v1 )

ライセンス: Link先を確認
Maryam Al-Fehani, Saif Al-Kuwari, (参考訳) 画像とビデオの法医学は、特に偽情報や偽ニュースを広めるTwitterやInstagramなどのソーシャルメディアプラットフォームで、操作された画像やビデオの拡散により、最近注目を集めている。 本調査では,操作したデジタルメディアと生成メディアの両方をカバーする画像と映像の識別と偽造検出について検討する。 しかし, メディアフォージェリー検出技術は, 抗法医学の影響を受けやすいため, 反法医学的手法自体も検出できる。 以上より,画像およびビデオの反法医学的手法と反法医学的手法の両方を網羅する。 最後に、この領域におけるいくつかのオープンな問題を強調して、この調査を締めくくります。

Image and video forensics have recently gained increasing attention due to the proliferation of manipulated images and videos, especially on social media platforms, such as Twitter and Instagram, which spread disinformation and fake news. This survey explores image and video identification and forgery detection covering both manipulated digital media and generative media. However, media forgery detection techniques are susceptible to anti-forensics; on the other hand, such anti-forensics techniques can themselves be detected. We therefore further cover both anti-forensics and counter anti-forensics techniques in image and video. Finally, we conclude this survey by highlighting some open problems in this domain.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-03
# Wireguard:IoTデバイスの接続性を確保するための効率的なソリューション

Wireguard: An Efficient Solution for Securing IoT Device Connectivity ( http://arxiv.org/abs/2402.02093v1 )

ライセンス: Link先を確認
Haseebullah Jumakhan, Amir Mirzaeinia, (参考訳) 脆弱なIoT(Internet-of-Things)デバイスの普及により、大規模なサイバー攻撃が可能になった。 HestiaやHomeSnitchのようなソリューションは、IoTセキュリティのニーズに包括的に対処できなかった。 この研究は、新しいVPNプロトコルであるWireguardが、リソース制約のあるIoTシステムに適した効率的なセキュリティを提供できるかどうかを評価する。 シミュレーションIoT環境では、Wireguardsのパフォーマンスを標準プロトコルであるOpenVPNとIPsecと比較した。 測定基準には、ファイル転送時のスループット、レイテンシ、ジッタが含まれている。 実験環境におけるWireguardの欠点にもかかわらず、Wireguardは軽量で堅牢なIoTセキュリティソリューションとしての可能性を示している。 さらなるテストにより、Wireguardsのシンプルさとオーバーヘッドの低さにより、VPNの採用が拡大し、IoTデバイスによる攻撃が強化される可能性がある。 セットアップ時間、パフォーマンス、互換性におけるプロトコルのアドバンテージは、特に弱いIoTプロセッサやネットワーク上での統合を約束している。

The proliferation of vulnerable Internet-of-Things (IoT) devices has enabled large-scale cyberattacks. Solutions like Hestia and HomeSnitch have failed to comprehensively address IoT security needs. This research evaluates if Wireguard, an emerging VPN protocol, can provide efficient security tailored for resource-constrained IoT systems. We compared Wireguards performance against standard protocols OpenVPN and IPsec in a simulated IoT environment. Metrics measured included throughput, latency, and jitter during file transfers. Initial results reveal Wireguard's potential as a lightweight yet robust IoT security solution despite disadvantages for Wireguard in our experimental environment. With further testing, Wireguards simplicity and low overhead could enable widespread VPN adoption to harden IoT devices against attacks. The protocols advantages in setup time, performance, and compatibility make it promising for integration especially on weak IoT processors and networks.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-03
# テキスト内学習のためのデータポジショニング

Data Poisoning for In-context Learning ( http://arxiv.org/abs/2402.02160v1 )

ライセンス: Link先を確認
Pengfei He, Han Xu, Yue Xing, Hui Liu, Makoto Yamada, Jiliang Tang, (参考訳) 大規模言語モデル(LLM)の分野では、インコンテキスト学習(ICL)が新しいタスクに適応する革新的な能力があることが認識されている。 本論文は、ICLによるデータ中毒攻撃に対する感受性の重大な問題について論じる。 ICLは、モデル性能を劣化させるために、サンプルデータを操作できる敵がいて、脆弱性があるのかどうか疑問である。 そこで本研究では,ICLの学習機構を活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。 ICLプロセス中にLSMの隠れ状態に戦略的に影響を与えるために、個別のテキスト摂動を用いる。 フレームワーク上で攻撃を実行するための3つの代表的な戦略を概説し、それぞれが様々なモデルやタスクに対して厳格に評価する。 高度なGPT-4モデルの試行を含む包括的テストは、ICLの性能が我々のフレームワークで著しく損なわれていることを示す。 これらの暴露は、文脈内学習に依存したアプリケーションにおいて、LLMの完全性と信頼性を保護するための防御機構の強化が緊急に必要であることを示している。

In the domain of large language models (LLMs), in-context learning (ICL) has been recognized for its innovative ability to adapt to new tasks, relying on examples rather than retraining or fine-tuning. This paper delves into the critical issue of ICL's susceptibility to data poisoning attacks, an area not yet fully explored. We wonder whether ICL is vulnerable, with adversaries capable of manipulating example data to degrade model performance. To address this, we introduce ICLPoison, a specialized attacking framework conceived to exploit the learning mechanisms of ICL. Our approach uniquely employs discrete text perturbations to strategically influence the hidden states of LLMs during the ICL process. We outline three representative strategies to implement attacks under our framework, each rigorously evaluated across a variety of models and tasks. Our comprehensive tests, including trials on the sophisticated GPT-4 model, demonstrate that ICL's performance is significantly compromised under our framework. These revelations indicate an urgent need for enhanced defense mechanisms to safeguard the integrity and reliability of LLMs in applications relying on in-context learning.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-03
# Invisible Finger: タッチスクリーンベースの電子機器における実用的な電磁干渉攻撃

Invisible Finger: Practical Electromagnetic Interference Attack on Touchscreen-based Electronic Devices ( http://arxiv.org/abs/2402.02227v1 )

ライセンス: Link先を確認
Haoqi Shan, Boyi Zhang, Zihao Zhan, Dean Sullivan, Shuo Wang, Yier Jin, (参考訳) スマートフォンやスマートタブレットなどのタッチスクリーンベースの電子機器は、私たちの日常生活で広く使われている。 近年,電子機器のセキュリティについて深く研究されているが,様々な攻撃に対するタッチスクリーンのレジリエンスについてはまだ十分に調査されていない。 本稿では,タッチスクリーンを用いた電子デバイスが,意図的電磁干渉(IEMI)攻撃に対して,系統的に脆弱であり,この攻撃を実用的に行う方法を示す。 私たちの貢献は、攻撃を実証するだけでなく、新しいIEMIのタッチスクリーンへの攻撃を詳細に分析し、そのメカニズムを定量化することにあります。 タッチスクリーンゴーストタッチを誘導するために必要な最小電界量と信号周波数の両方を計算する方法を示す。 さらに、異なる大きさ、周波数、持続時間、マルチタッチパターンで、実際のタッチスクリーンに対するIEMI攻撃を分析します。 IEMI信号を用いたタッチスクリーン対応電子機器の制御機構についても詳述する。 我々は、実用的なIEMI攻撃を支援するために、視界外タッチスクリーンロケータとタッチインジェクションフィードバック機構を設計し、評価する。 私たちの攻撃は、タッチスクリーンの走査機構やオペレーティングシステムに関わらず、タッチスクリーンの回路上で直接動作する。 我々の攻撃は、一般的なタブレットの厚さよりも大きい距離から、タッチスクリーンに短タップ、長押し、全方向のジェスチャーを注入することができる。 最先端のタッチスクリーンアタックと比較すると、センサー信号の同期を必要とせず、さまざまなタイプのタッチイベントを正確に注入できるため、攻撃はより堅牢で実用的なものになる。 また,単純な概念実証攻撃ではなく,エンド・ツー・エンド攻撃シナリオを備えたIEMIベースのタッチスクリーンアタックベクターを初めて提示し,実演する。

Touchscreen-based electronic devices such as smart phones and smart tablets are widely used in our daily life. While the security of electronic devices have been heavily investigated recently, the resilience of touchscreens against various attacks has yet to be thoroughly investigated. In this paper, for the first time, we show that touchscreen-based electronic devices are vulnerable to intentional electromagnetic interference (IEMI) attacks in a systematic way and how to conduct this attack in a practical way. Our contribution lies in not just demonstrating the attack, but also analyzing and quantifying the underlying mechanism allowing the novel IEMI attack on touchscreens in detail. We show how to calculate both the minimum amount of electric field and signal frequency required to induce touchscreen ghost touches. We further analyze our IEMI attack on real touchscreens with different magnitudes, frequencies, duration, and multitouch patterns. The mechanism of controlling the touchscreen-enabled electronic devices with IEMI signals is also elaborated. We design and evaluate an out-of-sight touchscreen locator and touch injection feedback mechanism to assist a practical IEMI attack. Our attack works directly on the touchscreen circuit regardless of the touchscreen scanning mechanism or operating system. Our attack can inject short-tap, long-press, and omni-directional gestures on touchscreens from a distance larger than the average thickness of common tabletops. Compared with the state-of-the-art touchscreen attack, ours can accurately inject different types of touch events without the need for sensing signal synchronization, which makes our attack more robust and practical. In addition, rather than showing a simple proof-of-concept attack, we present and demonstrate the first ready-to-use IEMI based touchscreen attack vector with end-to-end attack scenarios.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-03
# 暗号用統計ランダム性試験電池の勧告

Recommendations on Statistical Randomness Test Batteries for Cryptographic Purposes ( http://arxiv.org/abs/2402.02240v1 )

ライセンス: Link先を確認
Elena Almaraz Luengo, Luis Javier García Villalba, (参考訳) 異なるアプリケーションのセキュリティは、そのような目的で生成されたシーケンスの良さと密接に関連している。 暗号だけでなく、他の分野でも、乱数の長い列を得るか、少なくともそのような振る舞いをとる必要がある。 使用するジェネレータがランダムで予測不能で独立なシーケンスを生成するかどうかを決定するためには、統計チェックが必要である。 この目的のために、異なる仮説テストのバッテリが提案されている。 本研究は, 主試験電池の長所と短所を示すとともに, 使用指針, 実例を提示する。

Security in different applications is closely related to the goodness of the sequences generated for such purposes. Not only in Cryptography but also in other areas, it is necessary to obtain long sequences of random numbers or that, at least, behave as such. To decide whether the generator used produces sequences that are random, unpredictable and independent, statistical checks are needed. Different batteries of hypothesis tests have been proposed for this purpose. In this work, a survey of the main test batteries is presented, indicating their pros and cons, giving some guidelines for their use and presenting some practical examples.
翻訳日:2024-03-18 07:57:54 公開日:2024-02-03
# 金融機関向けESGにおけるAI:産業調査

AI in ESG for Financial Institutions: An Industrial Survey ( http://arxiv.org/abs/2403.05541v1 )

ライセンス: Link先を確認
Jun Xu, (参考訳) 金融セクター内の環境、社会、ガバナンス(ESG)イニシアチブへの人工知能(AI)の統合は、より持続可能で公平な金融慣行へのパラダイムシフトを表している。 本稿では,ESGフレームワークの活性化におけるAIの必要性と影響を明らかにするために,産業環境を調査した。 厳格な規制要件の出現と利害関係者の意識の高まりにより、金融機関(FI)はESG基準を採用することを余儀なくされている。 AIは、金融活動と持続可能性目標の複雑なインタープレイをナビゲートする上で、重要なツールとして現れます。 調査では、分析能力、リスク評価、顧客エンゲージメント、報告精度など、ESGの主要な3つの柱にまたがるAIアプリケーションを分類した。 さらに、データの使用とモデルの開発に関する批判的な考察を掘り下げ、データ品質、プライバシ、モデルロバスト性の重要性を強調します。 この論文は、ESG関連の銀行プロセスにおけるAI展開の倫理的側面を強調し、責任と持続可能なAIの衝動についても論じている。 結論としては、AIがバンキングにおいてESGに変革的ポテンシャルを提供する一方で、慎重に検討する必要のある重大な課題を生じさせることが示唆されている。 論文の最後のパートでは、調査の洞察を要約し、ESGプラクティスにおけるAIの採用に対する前向きなスタンスを提案している。 ESGドメイン内のリスクを軽減しつつ、AIの強みを活用するバランスのとれたアプローチを提唱する。

The burgeoning integration of Artificial Intelligence (AI) into Environmental, Social, and Governance (ESG) initiatives within the financial sector represents a paradigm shift towards more sus-tainable and equitable financial practices. This paper surveys the industrial landscape to delineate the necessity and impact of AI in bolstering ESG frameworks. With the advent of stringent regulatory requirements and heightened stakeholder awareness, financial institutions (FIs) are increasingly compelled to adopt ESG criteria. AI emerges as a pivotal tool in navigating the complex in-terplay of financial activities and sustainability goals. Our survey categorizes AI applications across three main pillars of ESG, illustrating how AI enhances analytical capabilities, risk assessment, customer engagement, reporting accuracy and more. Further, we delve into the critical con-siderations surrounding the use of data and the development of models, underscoring the importance of data quality, privacy, and model robustness. The paper also addresses the imperative of responsible and sustainable AI, emphasizing the ethical dimensions of AI deployment in ESG-related banking processes. Conclusively, our findings suggest that while AI offers transformative potential for ESG in banking, it also poses significant challenges that necessitate careful consideration. The final part of the paper synthesizes the survey's insights, proposing a forward-looking stance on the adoption of AI in ESG practices. We conclude with recommendations with a reference architecture for future research and development, advocating for a balanced approach that leverages AI's strengths while mitigating its risks within the ESG domain.
翻訳日:2024-03-18 06:19:57 公開日:2024-02-03
# 圧縮アルゴリズムを用いたデジタル映像操作検出手法

Digital Video Manipulation Detection Technique Based on Compression Algorithms ( http://arxiv.org/abs/2403.07891v1 )

ライセンス: Link先を確認
Edgar Gonzalez Fernandez, Ana Lucila Sandoval Orozco, Luis Javier Garcia Villalba, (参考訳) デジタル画像やビデオは日常生活において非常に重要な役割を果たす。 現在、人々は高度な統合カメラと強力な画像処理アプリケーションを備えた安価なモバイルデバイスにアクセスすることができる。 技術開発は、マルチメディアコンテンツの生成だけでなく、レクリエーションや悪意のある目的によって、意図的な修正も促進する。 ここでは、画像やビデオの操作を検出する法医学的手法が不可欠である。 本稿では,H.264符号化における圧縮アルゴリズムの解析による法医学的手法を提案する。 再圧縮の存在は、H.264-MPEG4標準の特徴であるマクロブロックの情報と運動ベクトルを使用する。 Vector Support Machineは、ビデオが圧縮されたかどうかを正確に検出するモデルを作成するために使用される。

Digital images and videos play a very important role in everyday life. Nowadays, people have access the affordable mobile devices equipped with advanced integrated cameras and powerful image processing applications. Technological development facilitates not only the generation of multimedia content, but also the intentional modification of it, either with recreational or malicious purposes. This is where forensic techniques to detect manipulation of images and videos become essential. This paper proposes a forensic technique by analysing compression algorithms used by the H.264 coding. The presence of recompression uses information of macroblocks, a characteristic of the H.264-MPEG4 standard, and motion vectors. A Vector Support Machine is used to create the model that allows to accurately detect if a video has been recompressed.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-03
# コピュラエントロピーを用いた2サンプル試験による変化点検出

Change Point Detection with Copula Entropy based Two-Sample Test ( http://arxiv.org/abs/2403.07892v1 )

ライセンス: Link先を確認
Jian Ma, (参考訳) 変更点検出は、時系列の変化を見つけることを目的とした典型的なタスクであり、2サンプルテストに対処できる。 コピュラエントロピー(Copula Entropy)は、統計的な独立性を測定する数学的概念であり、最近導入された2サンプルテストである。 本論文では,コプラエントロピーに基づく2サンプル検定による複数点検出のための非パラメトリック多変量法を提案する。 単一変更点検出はまず時系列データの各点における2サンプルテストのグループとして提案され、その変更点をテスト統計の最大値とみなす。 次に、単一変化点検出法とバイナリセグメンテーション戦略を組み合わせることで、多重変化点検出を提案する。 我々は,本手法の有効性を検証し,シミュレーションされた単変量および多変量データおよびナイルデータについて,他の類似手法と比較した。

Change point detection is a typical task that aim to find changes in time series and can be tackled with two-sample test. Copula Entropy is a mathematical concept for measuring statistical independence and a two-sample test based on it was introduced recently. In this paper we propose a nonparametric multivariate method for multiple change point detection with the copula entropy-based two-sample test. The single change point detection is first proposed as a group of two-sample tests on every points of time series data and the change point is considered as with the maximum of the test statistics. The multiple change point detection is then proposed by combining the single change point detection method with binary segmentation strategy. We verified the effectiveness of our method and compared it with the other similar methods on the simulated univariate and multivariate data and the Nile data.
翻訳日:2024-03-18 06:00:28 公開日:2024-02-03
# ゼロショットセマンティック類似性を用いたSBOM自動生成

Automating SBOM Generation with Zero-Shot Semantic Similarity ( http://arxiv.org/abs/2403.08799v1 )

ライセンス: Link先を確認
Devin Pereira, Christopher Molloy, Sudipta Acharya, Steven H. H. Ding, (参考訳) ソフトウェア業界では、特にソフトウェアエコシステムの複雑さの増大と、メーカがシステムで使用するソフトウェアを在庫する際のセキュリティとコンプライアンスの重視により、ますます重要になっている。 Software-Bill-of-Materials (SBOM)は、ソフトウェアアプリケーションのコンポーネントと依存関係を詳述した総合的なインベントリである。 現在のアプローチは、バイナリファイルに埋め込まれたソフトウェアコンポーネントを矛盾なく識別するケースベースの推論に依存している。 本稿では,SBOMを自動生成し,破壊的なサプライチェーン攻撃を防止する方法として,異なる経路を提案する。 静的コード解析のトピックに留まり、この問題を意味的類似性タスクとして解釈し、トランスフォーマーモデルで製品名と対応するバージョン文字列を関連付けるように訓練する。 テスト結果は説得力があり、ゼロショット分類タスクにおけるモデルの強いパフォーマンスを示し、現実世界のサイバーセキュリティコンテキストでの使用の可能性を示しています。

It is becoming increasingly important in the software industry, especially with the growing complexity of software ecosystems and the emphasis on security and compliance for manufacturers to inventory software used on their systems. A Software-Bill-of-Materials (SBOM) is a comprehensive inventory detailing a software application's components and dependencies. Current approaches rely on case-based reasoning to inconsistently identify the software components embedded in binary files. We propose a different route, an automated method for generating SBOMs to prevent disastrous supply-chain attacks. Remaining on the topic of static code analysis, we interpret this problem as a semantic similarity task wherein a transformer model can be trained to relate a product name to corresponding version strings. Our test results are compelling, demonstrating the model's strong performance in the zero-shot classification task, further demonstrating the potential for use in a real-world cybersecurity context.
翻訳日:2024-03-18 05:40:54 公開日:2024-02-03
# 実世界データにおけるアルツハイマー病関連認知症関連因子の同定の可能性

Feasibility of Identifying Factors Related to Alzheimer's Disease and Related Dementia in Real-World Data ( http://arxiv.org/abs/2402.15515v1 )

ライセンス: Link先を確認
Aokun Chen, Qian Li, Yu Huang, Yongqiu Li, Yu-neng Chuang, Xia Hu, Serena Guo, Yonghui Wu, Yi Guo, Jiang Bian(参考訳) AD/ADRDに関連する因子の包括的見解は、AD/ADRDの新しい治療を開発し、リスクの高い集団と予防活動の患者を特定する研究に大いに役立つだろう。 本研究では,AD/ADRDのリスク要因について,既存のメタアナリシスをレビューし,AD/ADRDのリスク要因と予防要因についてレビューした。 合計で537研究から10のカテゴリで477のリスクファクターを抽出した。 研究結果を広めるためにインタラクティブな知識マップを構築した。 リスク要因のほとんどは構造化された電子健康記録(ehrs)からアクセスでき、臨床物語は約束を情報源として示す。 しかし、AD/ADRDの遺伝子検査は一般的には行われておらず、構造的および非構造的 EHR には不十分なため、RWD を用いたゲノムリスク因子の評価は依然として困難である。 AD/ADRDリスクファクタに関する継続的な研究を考えると、NLP法による文献マイニングは知識マップを自動的に更新するソリューションを提供する。

A comprehensive view of factors associated with AD/ADRD will significantly aid in studies to develop new treatments for AD/ADRD and identify high-risk populations and patients for prevention efforts. In our study, we summarized the risk factors for AD/ADRD by reviewing existing meta-analyses and review articles on risk and preventive factors for AD/ADRD. In total, we extracted 477 risk factors in 10 categories from 537 studies. We constructed an interactive knowledge map to disseminate our study results. Most of the risk factors are accessible from structured Electronic Health Records (EHRs), and clinical narratives show promise as information sources. However, evaluating genomic risk factors using RWD remains a challenge, as genetic testing for AD/ADRD is still not a common practice and is poorly documented in both structured and unstructured EHRs. Considering the constantly evolving research on AD/ADRD risk factors, literature mining via NLP methods offers a solution to automatically update our knowledge map.
翻訳日:2024-03-11 00:17:28 公開日:2024-02-03
# DE$^3$-BERT: プロトタイプネットワークに基づくBERTの距離拡張早期実行

DE$^3$-BERT: Distance-Enhanced Early Exiting for BERT based on Prototypical Networks ( http://arxiv.org/abs/2402.05948v1 )

ライセンス: Link先を確認
Jianing He, Qi Zhang, Weiping Ding, Duoqian Miao, Jun Zhao, Liang Hu, Longbing Cao(参考訳) 早期終了は、実行されるレイヤ数を動的に調整することで、BERTのような事前訓練された言語モデルの推論を加速する効果を示した。 しかし、既存の早期退避法の多くは、個々の検査サンプルからの局所的な情報しか考慮せず、サンプル集団が提供したグローバルな情報を活用できない。 これにより予測精度が最適以下に推定され、誤った終了決定が導かれる。 このギャップを埋めるために,地域情報とグローバル情報の両方を効果的に組み合わせ,推論中に信頼できる早期退出を確保する必要性を探究する。 故意に、プロトタイプネットワークを利用してクラスプロトタイプを学び、サンプルとクラスプロトタイプ間の距離メトリックを考案する。 これにより,早期予測の正確性を推定するためにグローバル情報を利用することができる。 そこで本研究では, BERT (DE$^3$-BERT) のための分散拡張早期実行フレームワークを提案する。 DE$^3$-BERTは、従来のエントロピーに基づくローカル情報と距離に基づくグローバル情報とを補完するハイブリッドエグジット戦略を実装し、より信頼性の高い早期エグジット決定のための予測正当性の推定を強化する。 GLUEベンチマークの大規模な実験により、De$^3$-BERTは、最小のストレージや計算オーバーヘッドで異なるスピードアップ比で、常に最先端のモデルより優れており、モデル性能と推論効率のトレードオフが向上していることが示された。 さらに,本手法の一般性や解釈可能性についても詳細な解析を行った。

Early exiting has demonstrated its effectiveness in accelerating the inference of pre-trained language models like BERT by dynamically adjusting the number of layers executed. However, most existing early exiting methods only consider local information from an individual test sample to determine their exiting indicators, failing to leverage the global information offered by sample population. This leads to suboptimal estimation of prediction correctness, resulting in erroneous exiting decisions. To bridge the gap, we explore the necessity of effectively combining both local and global information to ensure reliable early exiting during inference. Purposefully, we leverage prototypical networks to learn class prototypes and devise a distance metric between samples and class prototypes. This enables us to utilize global information for estimating the correctness of early predictions. On this basis, we propose a novel Distance-Enhanced Early Exiting framework for BERT (DE$^3$-BERT). DE$^3$-BERT implements a hybrid exiting strategy that supplements classic entropy-based local information with distance-based global information to enhance the estimation of prediction correctness for more reliable early exiting decisions. Extensive experiments on the GLUE benchmark demonstrate that DE$^3$-BERT consistently outperforms state-of-the-art models under different speed-up ratios with minimal storage or computational overhead, yielding a better trade-off between model performance and inference efficiency. Additionally, an in-depth analysis further validates the generality and interpretability of our method.
翻訳日:2024-02-18 14:41:43 公開日:2024-02-03
# 説明可能な機械学習による顧客のオンラインデータ分析による製品属性の重要性の同定

An explainable machine learning-based approach for analyzing customers' online data to identify the importance of product attributes ( http://arxiv.org/abs/2402.05949v1 )

ライセンス: Link先を確認
Aigin Karimzadeh, Amir Zakery, Mohammadreza Mohammadi, Ali Yavari(参考訳) オンライン顧客データは、顧客の好みを明らかにするため、製品デザインとマーケティング研究に貴重な情報を提供する。 しかし、データ駆動設計のために人工知能(AI)を用いてこれらのデータを分析することは、潜在的な隠蔽パターンのために難しい課題である。 また、これらの研究分野においては、ほとんどの研究は顧客ニーズの発見に限られている。 本研究では,製品開発における総合的な設計意味を抽出するゲーム理論機械学習(ML)手法を提案する。 この方法は、まず遺伝的アルゴリズムを使用して、オンライン評価に基づいて顧客満足度を最大化できる製品機能を選択し、ランク付けし、結合する。 そこで, SHAP (SHapley Additive exPlanations) は, 予測への貢献に基づいて各特徴に値を割り当てるゲーム理論であり, 全体の満足度を評価する上で, 特徴の重要性を評価するためのガイドラインを提供する。 本手法をkaggleから実世界のラップトップデータセットに適用し,その結果に基づいて設計の影響を導出する。 弊社のアプローチは、マルチ基準意思決定の分野における大きな課題に取り組み、製品デザイナーやマーケターが顧客の好みをより少ないデータと労力で理解できるようにする。 提案手法は,関連する性能指標でベンチマーク手法より優れている。

Online customer data provides valuable information for product design and marketing research, as it can reveal the preferences of customers. However, analyzing these data using artificial intelligence (AI) for data-driven design is a challenging task due to potential concealed patterns. Moreover, in these research areas, most studies are only limited to finding customers' needs. In this study, we propose a game theory machine learning (ML) method that extracts comprehensive design implications for product development. The method first uses a genetic algorithm to select, rank, and combine product features that can maximize customer satisfaction based on online ratings. Then, we use SHAP (SHapley Additive exPlanations), a game theory method that assigns a value to each feature based on its contribution to the prediction, to provide a guideline for assessing the importance of each feature for the total satisfaction. We apply our method to a real-world dataset of laptops from Kaggle, and derive design implications based on the results. Our approach tackles a major challenge in the field of multi-criteria decision making and can help product designers and marketers, to understand customer preferences better with less data and effort. The proposed method outperforms benchmark methods in terms of relevant performance metrics.
翻訳日:2024-02-18 14:36:30 公開日:2024-02-03
# 拡散モデルから分離可能な多概念消去

Separable Multi-Concept Erasure from Diffusion Models ( http://arxiv.org/abs/2402.05947v1 )

ライセンス: Link先を確認
Mengnan Zhao, Lihe Zhang, Tianhang Zheng, Yuqiu Kong and Baocai Yin(参考訳) 印象的な画像生成能力で知られる大規模な拡散モデルは、著作権のある芸術様式の模倣のような社会的影響に関する研究者の間で懸念を高めている。 これに対し、既存のアプローチは、事前訓練されたモデルから安全でない概念を排除するために、機械学習技術に転換する。 しかし、これらの手法は生成性能を損なうとともに、多概念消去と概念復元の問題を無視する。 そこで本研究では,概念非関係表現の生成と重み分解の2つの部分を含む分離型マルチコンセプタ消去器(sepme)を提案する。 前者は、忘れられた概念とは無関係な実質的な情報の学習を避けることを目的としている。 後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは他の概念の生成性能に影響を与えることなく、特定の概念の消去に対応する。 具体的には、特定の概念を消去するウェイトインクリメントは、他の既知の望ましくない概念に基づいて計算された解の線形結合として定式化される。 広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保におけるアプローチの有効性を示す。

Large-scale diffusion models, known for their impressive image generation capabilities, have raised concerns among researchers regarding social impacts, such as the imitation of copyrighted artistic styles. In response, existing approaches turn to machine unlearning techniques to eliminate unsafe concepts from pre-trained models. However, these methods compromise the generative performance and neglect the coupling among multi-concept erasures, as well as the concept restoration problem. To address these issues, we propose a Separable Multi-concept Eraser (SepME), which mainly includes two parts: the generation of concept-irrelevant representations and the weight decoupling. The former aims to avoid unlearning substantial information that is irrelevant to forgotten concepts. The latter separates optimizable model weights, making each weight increment correspond to a specific concept erasure without affecting generative performance on other concepts. Specifically, the weight increment for erasing a specified concept is formulated as a linear combination of solutions calculated based on other known undesirable concepts. Extensive experiments indicate the efficacy of our approach in eliminating concepts, preserving model performance, and offering flexibility in the erasure or recovery of various concepts.
翻訳日:2024-02-18 14:36:08 公開日:2024-02-03
# 潜在因果ルールの公開:異常事象説明のための時間的ポイントプロセスアプローチ

Unveiling Latent Causal Rules: A Temporal Point Process Approach for Abnormal Event Explanation ( http://arxiv.org/abs/2402.05946v1 )

ライセンス: Link先を確認
Yiling Kuang, Chao Yang, Yang Yang, Shuang Li(参考訳) 医療などのハイテイクシステムでは、患者の健康の急激な変化などの異常事象の原因を理解することが重要である。 原因を解明することは、迅速な診断と正確な治療計画に役立つ。 本稿では,観測事象を説明するために"if-then"論理規則を自動解く手法を提案する。 興味のある事象をモデル化するための時間的ポイントプロセスを導入し、イベントの発生を説明するための潜在ルールのセットを発見する。 これを実現するために,期待最大化(em)アルゴリズムを用いる。 E-stepでは、各事象が発見規則によって説明される可能性を計算する。 M-ステップでは、ルールセットとモデルパラメータの両方を更新し、可能性関数の下位境界を強化する。 特に、ルールセットを異なる方法で最適化する。 提案手法は,ルールの発見と根本原因の同定の両方において,正確な性能を示す。 人工的および実際の医療データセットを用いて、有望な結果を示す。

In high-stakes systems such as healthcare, it is critical to understand the causal reasons behind unusual events, such as sudden changes in patient's health. Unveiling the causal reasons helps with quick diagnoses and precise treatment planning. In this paper, we propose an automated method for uncovering "if-then" logic rules to explain observational events. We introduce temporal point processes to model the events of interest, and discover the set of latent rules to explain the occurrence of events. To achieve this, we employ an Expectation-Maximization (EM) algorithm. In the E-step, we calculate the likelihood of each event being explained by each discovered rule. In the M-step, we update both the rule set and model parameters to enhance the likelihood function's lower bound. Notably, we optimize the rule set in a differential manner. Our approach demonstrates accurate performance in both discovering rules and identifying root causes. We showcase its promising results using synthetic and real healthcare datasets.
翻訳日:2024-02-18 14:35:48 公開日:2024-02-03
# 教師付き階層型概念学習によるハードコンセプトボトルネックモデルにおける情報漏洩の排除

Eliminating Information Leakage in Hard Concept Bottleneck Models with Supervised, Hierarchical Concept Learning ( http://arxiv.org/abs/2402.05945v1 )

ライセンス: Link先を確認
Ao Sun, Yuanyuan Yuan, Pingchuan Ma, and Shuai Wang(参考訳) 概念ボトルネックモデル(cbms)は、人間の理解可能な概念と特徴やラベルを橋渡しすることで、解釈可能かつ干渉可能な予測を提供することを目的としている。 最近のCBMは有望な可能性を示しているが、情報漏洩に悩まされており、(概念が確率またはバイナリ状態で表現されている場合)概念以外の意図しない情報がその後のラベル予測にリークされる。 その結果、異なるクラスは区別不可能な概念によって誤って分類され、CBMの解釈と介入を損なうことになる。 本稿では,概念述語にラベル管理を導入し,階層的概念集合を構築することにより,情報漏洩問題を緩和する。 そこで本研究では,予測概念と故意に設計された介入行列を用いてラベル述語を実現する新しいパラダイムであるspcbmを提案する。 SupCBMは、予測ラベルに主に関係する概念に焦点を当て、異なる概念が提示された場合にのみクラスを区別する。 評価の結果,SupCBMは多様なデータセット上でSOTA CBMよりも優れていた。 また、異なるバックボーンモデルにまたがるより汎用性を示す。 異なるCBMにおける情報漏洩の適切な定量化により、SupCBMは情報漏洩を著しく低減することを示す。

Concept Bottleneck Models (CBMs) aim to deliver interpretable and interventionable predictions by bridging features and labels with human-understandable concepts. While recent CBMs show promising potential, they suffer from information leakage, where unintended information beyond the concepts (either when concepts are represented with probabilities or binary states) are leaked to the subsequent label prediction. Consequently, distinct classes are falsely classified via indistinguishable concepts, undermining the interpretation and intervention of CBMs. This paper alleviates the information leakage issue by introducing label supervision in concept predication and constructing a hierarchical concept set. Accordingly, we propose a new paradigm of CBMs, namely SupCBM, which achieves label predication via predicted concepts and a deliberately-designed intervention matrix. SupCBM focuses on concepts that are mostly relevant to the predicted label and only distinguishes classes when different concepts are presented. Our evaluations show that SupCBM outperforms SOTA CBMs over diverse datasets. It also manifests better generality across different backbone models. With proper quantification of information leakage in different CBMs, we demonstrate that SupCBM significantly reduces the information leakage.
翻訳日:2024-02-18 14:35:35 公開日:2024-02-03
# 人間のデジタル双子に向けて:定義とデザイン -- 調査

Towards the Human Digital Twin: Definition and Design -- A survey ( http://arxiv.org/abs/2402.07922v1 )

ライセンス: Link先を確認
Martin Wolfgang Lauer-Schmaltz, Philip Cash, John Paulin Hansen, Anja Maier(参考訳) Human Digital Twins(HDTs)は、医療からスポーツまで幅広い分野において大きな可能性を持つ、急速に発展する技術である。 HDTは、人間を基礎となる物理的実体として表現することで、デジタルツインズの伝統的な理解を拡張している。 これはHDTの定義の曖昧さや設計のガイダンスの欠如など、いくつかの重要な課題をもたらした。 この調査はHDTsの分野における最近の進歩をまとめて、HDTsの特徴に基づいた最初のクロスドメイン定義を提案することによって、将来の開発者を導くとともに、関連する課題から生じる重要な設計上の考慮事項を11つ挙げる。

Human Digital Twins (HDTs) are a fast-emerging technology with significant potential in fields ranging from healthcare to sports. HDTs extend the traditional understanding of Digital Twins by representing humans as the underlying physical entity. This has introduced several significant challenges, including ambiguity in the definition of HDTs and a lack of guidance for their design. This survey brings together the recent advances in the field of HDTs to guide future developers by proposing a first cross-domain definition of HDTs based on their characteristics, as well as eleven key design considerations that emerge from the associated challenges.
翻訳日:2024-02-18 13:26:28 公開日:2024-02-03
# 実環境WiFiを用いた在宅医療の患者活動モニタリングにおけるデータ配信のダイナミクス

Data Distribution Dynamics in Real-World WiFi-Based Patient Activity Monitoring for Home Healthcare ( http://arxiv.org/abs/2402.09452v1 )

ライセンス: Link先を確認
Mahathir Monjur, Jia Liu, Jingye Xu, Yuntong Zhang, Xiaomeng Wang, Chengdong Li, Hyejin Park, Wei Wang, Karl Shieh, Sirajum Munir, Jing Wang, Lixin Song, Shahriar Nirjon(参考訳) 本稿では,在宅医療における日常活動のリアルタイムモニタリングにおけるWiFi信号の適用について検討する。 wifiベースのアクティビティ認識の最先端は実験室環境では有望だが、環境、主題、システム構成変数による実環境環境での課題が発生し、精度と適応性に影響を及ぼす。 この研究は、様々な設定でシステムをデプロイし、データシフトを分析した。 高齢者ケアのためのロバストでコンテキスト対応のwifiセンシングシステムの現実的な開発を導くことを目的としている。 この結果は、WiFiによるアクティビティセンシングのシフト、学術研究と実践的応用のギャップを埋めること、技術を通じた生活の質の向上を示唆している。

This paper examines the application of WiFi signals for real-world monitoring of daily activities in home healthcare scenarios. While the state-of-the-art of WiFi-based activity recognition is promising in lab environments, challenges arise in real-world settings due to environmental, subject, and system configuration variables, affecting accuracy and adaptability. The research involved deploying systems in various settings and analyzing data shifts. It aims to guide realistic development of robust, context-aware WiFi sensing systems for elderly care. The findings suggest a shift in WiFi-based activity sensing, bridging the gap between academic research and practical applications, enhancing life quality through technology.
翻訳日:2024-02-18 12:48:13 公開日:2024-02-03
# 必要なエージェントの数が増える

More Agents Is All You Need ( http://arxiv.org/abs/2402.05120v1 )

ライセンス: Link先を確認
Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye(参考訳) 単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数をインスタンス化してスケールすることがわかった。 また, この手法は, LLMをさらに強化する既存の複雑な手法と直交するが, その拡張度はタスクの難易度と相関する。 我々は, LLM ベンチマークの広範囲にわたる総合的な実験を行い, 発見の有無を検証し, その発生を促進する特性について検討する。 私たちのコードは、 \url{https://anonymous.4open.science/r/more_agent_is_all_you_need} で公開されている。

We find that, simply via a sampling-and-voting method, the performance of large language models (LLMs) scales with the number of agents instantiated. Also, this method is orthogonal to existing complicated methods to further enhance LLMs, while the degree of enhancement is correlated to the task difficulty. We conduct comprehensive experiments on a wide range of LLM benchmarks to verify the presence of our finding, and to study the properties that can facilitate its occurrence. Our code is publicly available at: \url{https://anonymous.4open.science/r/more_agent_is_all_you_need}.
翻訳日:2024-02-11 15:16:23 公開日:2024-02-03
# 命令チューニングの限界を詳しく見る

A Closer Look at the Limitations of Instruction Tuning ( http://arxiv.org/abs/2402.05119v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Chandra Kiran Reddy Evuru and Sonal Kumar and Ramaneswaran S and Deepali Aneja and Zeyu Jin and Ramani Duraiswami and Dinesh Manocha(参考訳) 命令応答ペアを用いた大規模言語モデル(LLM)の訓練プロセスであるインストラクションチューニング(IT)が,ベースとなる事前学習されたLLMをオープンドメインの会話エージェントに変換する主要な方法として登場した。 顕著な成功と広く採用されているが、その限界と欠点は未検討のままである。 本稿では、厳密な実験と、LLMがITを通して行っている変化の詳細な分析を通して、ITの様々な限界を明らかにする。 特に,(1)llmにおける知識やスキルの向上に失敗していることを示す。 LoRAファインチューニングは学習応答開始とスタイルトークンに限られており、フルパラメータのファインチューニングは知識の劣化につながる。 2)知識ソースから派生したITデータセットからの応答パターンのコピーは,応答品質の低下につながる。 3)全パラメータ細調整は,ITデータセットの概念的に類似したインスタンスからトークンを不正確な借用によって幻覚を増大させる。 (4) IT 改善のための一般的な手法は,シンプルな LoRA 微調整モデルよりも性能改善につながるものではない。 以上の結果から,オープンソースのデータセット上で新たな知識を学習するモデルが,事前学習した知識から生成した応答が,その応答を一貫して上回ることが明らかとなった。 洞察と課題が将来の仕事に刺激を与えてくれることを願っています。

Instruction Tuning (IT), the process of training large language models (LLMs) using instruction-response pairs, has emerged as the predominant method for transforming base pre-trained LLMs into open-domain conversational agents. While IT has achieved notable success and widespread adoption, its limitations and shortcomings remain underexplored. In this paper, through rigorous experiments and an in-depth analysis of the changes LLMs undergo through IT, we reveal various limitations of IT. In particular, we show that (1) IT fails to enhance knowledge or skills in LLMs. LoRA fine-tuning is limited to learning response initiation and style tokens, and full-parameter fine-tuning leads to knowledge degradation. (2) Copying response patterns from IT datasets derived from knowledgeable sources leads to a decline in response quality. (3) Full-parameter fine-tuning increases hallucination by inaccurately borrowing tokens from conceptually similar instances in the IT dataset for generating responses. (4) Popular methods to improve IT do not lead to performance improvements over a simple LoRA fine-tuned model. Our findings reveal that responses generated solely from pre-trained knowledge consistently outperform responses by models that learn any form of new knowledge from IT on open-source datasets. We hope the insights and challenges revealed inspire future work.
翻訳日:2024-02-11 15:16:13 公開日:2024-02-03
# 量子思考への転換を促進する--知識の再編成・組織化・認識論的課題に取り組む中等教育コースの開発

Promoting the transition to quantum thinking: development of a secondary school course for addressing knowledge revision, organization, and epistemological challenges ( http://arxiv.org/abs/2301.00239v7 )

ライセンス: Link先を確認
Giacomo Zuccarini and Marisa Michelini(参考訳) 本稿では, 古典的知識の改訂, 専門分野における組織化された知識構造の構築, 量子世界の可解な図像の開発などに関わる課題に対処するため, 中等教育における量子力学のコースの開発について述べる。 このコースは、古典力学から量子力学への移行における分析に依存し、認知的および認識論的側面を協調する概念変化に対する体系的アプローチに基づいている。 このアプローチが設計原則の導出を助長する方法,これらの原則が指導シーケンスの開発とその戦略をいかに導くか,それらの実装が異なる研究視点と学習システムのブレンドを必要とするかを示す。 第1の課題は、理論変化の各概念のダイナミクスに従って事前知識を活用する古典的概念と構成の修正の道を通して解決される。 2つ目は、コンテキストをまたいだ量子計測の統一図の構築を促進するフレームワークの採用である。 3つ目は、学生が理論物理学者のエピステマティックな実践、例えば思考実験の生成や実行、純粋に理論的な環境での数学的モデリングなどに関わるモデリングプロセスに関するコースを設計することである。 すべては、学生が自分の探究のもっともらしい産物として世界の量子的記述を受け入れるのを助けることを目的としている。 このプロセスは、提案された解釈的選択のそれぞれによって引き起こされる基礎的な議論の側面の議論に助けられ、その文化的重要性、選択された立場の制限、オープンな問題に対する認識を促進することを目的としている。 改良のサイクルに関するデータは、一連のアクティビティがローカルレベルでの課題にどのように効果的に対処されたかを示しています。

We describe the development of a course of quantum mechanics for secondary school designed to address the challenges related to the revision of classical knowledge, to the building of a well-organized knowledge structure on the discipline, and to the development of a plausible picture of the quantum world. The course is based on a systemic approach to conceptual change, which relies on its analysis in the transition from classical to quantum mechanics, and coordinates cognitive and epistemological aspects. We show how our approach drives the derivation of design principles, how these principles guide the development of the instructional sequence and of its strategies, how their implementation requires the blending of different research perspectives and learning systems. The first challenge is addressed through a path of revision of classical concepts and constructs which leverages prior knowledge according to the dynamics of each notion in theory change. The second by adopting a framework that promotes the construction of a unifying picture of quantum measurement across contexts. The third by designing the course around a modelling process that engages students in epistemic practices of the theoretical physicist, such as generating and/or running thought experiments, and mathematical modelling in a purely theoretical setting. All is aimed to help students accept the quantum description of the world as a plausible product of their own inquiry. This process is assisted by the discussion of the facets of the foundational debate that are triggered by each of the suggested interpretive choices, with the goal to promote an awareness of its cultural significance, of the limits the chosen stance, of the open issues. Data on the cycles of refinement illustrate how a set of activities have been made effective in addressing the challenges at a local level.
翻訳日:2024-02-08 21:00:33 公開日:2024-02-03
# 回帰のための非依存サンプル圧縮方式

Agnostic Sample Compression Schemes for Regression ( http://arxiv.org/abs/1810.01864v2 )

ライセンス: Link先を確認
Idan Attias, Steve Hanneke, Aryeh Kontorovich, Menachem Sadigurschi(参考訳) 我々は、$\ell_p$損失を持つ非依存回帰設定において、有界なサンプル圧縮に対する最初の正の値を得る。 ファットシャッタリング次元では指数的サイズを示すが,サンプルサイズには依存しない実数値関数クラスの汎用近似サンプル圧縮スキームを構築した。 特に線形回帰では、次元で線形な大きさの近似圧縮が構築される。 さらに、$\ell_1$ と $\ell_\infty$ の損失に対して、次元の線形の大きさの効率的な正確なサンプル圧縮スキームも示せる。 さらに、$\ell_p$ の損失、$p\in (1,\infty)$ に対して、有界サイズの正確な非依存な圧縮スキームは存在しないことを示す。 これにより、 david, moran, yehudayoff の $\ell_2$ の損失に対する負の結果が洗練され一般化される。 agnostic regression with $\ell_1$ loss に対して、すべての関数クラスは、その擬次元と同じ大きさの正確な圧縮スキームを認めますか? $\ell_2$ の損失に対して、すべての関数クラスは、脂肪粉砕次元における多項式サイズの近似圧縮スキームを許すか? これらの質問は、実現可能なケース分類のためのwarmuthの古典的なサンプル圧縮予想を一般化する。

We obtain the first positive results for bounded sample compression in the agnostic regression setting with the $\ell_p$ loss, where $p\in [1,\infty]$. We construct a generic approximate sample compression scheme for real-valued function classes exhibiting exponential size in the fat-shattering dimension but independent of the sample size. Notably, for linear regression, an approximate compression of size linear in the dimension is constructed. Moreover, for $\ell_1$ and $\ell_\infty$ losses, we can even exhibit an efficient exact sample compression scheme of size linear in the dimension. We further show that for every other $\ell_p$ loss, $p\in (1,\infty)$, there does not exist an exact agnostic compression scheme of bounded size. This refines and generalizes a negative result of David, Moran, and Yehudayoff for the $\ell_2$ loss. We close by posing general open questions: for agnostic regression with $\ell_1$ loss, does every function class admits an exact compression scheme of size equal to its pseudo-dimension? For the $\ell_2$ loss, does every function class admit an approximate compression scheme of polynomial size in the fat-shattering dimension? These questions generalize Warmuth's classic sample compression conjecture for realizable-case classification.
翻訳日:2024-02-07 21:50:03 公開日:2024-02-03
# betterv: 判別指導によるverilog生成制御

BetterV: Controlled Verilog Generation with Discriminative Guidance ( http://arxiv.org/abs/2402.03375v1 )

ライセンス: Link先を確認
Zehua Pei, Hui-Ling Zhen, Mingxuan Yuan, Yu Huang, Bei Yu(参考訳) 現代集積回路(IC)の複雑さが増大しているため、自動回路設計法が必要である。 近年,設計プロセスを容易にするハードウェア設計言語の開発が盛んに行われている。 そこで本研究では,処理されたドメイン固有データセットの大規模言語モデル(LLM)を微調整し,特定の設計要求のガイダンスに生成識別器を組み込んだVerilog生成フレームワークであるBetterVを提案する。 verilogモジュールはインターネットから収集、フィルタリング、処理され、クリーンで豊富なデータセットを形成する。 instruct-tuningメソッドはllmを微調整してverilogに関する知識を理解するように特別に設計されている。 さらに、トレーニングセットを充実させるためにデータを拡張し、特定の下流タスクで生成的識別器を訓練するためにも使用し、Verilogの実装を最適化するためのLLMのガイダンスを導いた。 BetterV は構文的にも機能的にも Verilog を生成する能力があり、VerilogEval-machine ベンチマークで GPT-4 より優れている。 タスク固有生成判別器の助けを借りて、bettervは様々な電子設計自動化(eda)下流タスクにおいて、boolean satisfiability(sat)解決によるnetlistノードの合成および検証ランタイムの削減を含む顕著な改善を達成できる。

Due to the growing complexity of modern Integrated Circuits (ICs), there is a need for automated circuit design methods. Recent years have seen rising research in hardware design language generation to facilitate the design process. In this work, we propose a Verilog generation framework, BetterV, which fine-tunes the large language models (LLMs) on processed domain-specific datasets and incorporates generative discriminators for guidance on particular design demands. The Verilog modules are collected, filtered and processed from internet to form a clean and abundant dataset. Instruct-tuning methods are specially designed to fine-tuned the LLMs to understand the knowledge about Verilog. Furthermore, data are augmented to enrich the training set and also used to train a generative discriminator on particular downstream task, which leads a guidance for the LLMs to optimize the Verilog implementation. BetterV has the ability to generate syntactically and functionally correct Verilog, which can outperform GPT-4 on the VerilogEval-machine benchmark. With the help of task-specific generative discriminator, BetterV can achieve remarkable improvement on various electronic design automation (EDA) downstream tasks, including the netlist node reduction for synthesis and verification runtime reduction with Boolean Satisfiability (SAT) solving.
翻訳日:2024-02-07 18:34:23 公開日:2024-02-03
# IMUSIC:IMUベースの表情キャプチャ

IMUSIC: IMU-based Facial Expression Capture ( http://arxiv.org/abs/2402.03944v1 )

ライセンス: Link先を確認
Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu(参考訳) 顔の動きのキャプチャと分析では、支配的なソリューションは一般的に、プライバシーを保護できず、閉塞に弱い視覚的手がかりに基づいている。 慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。 本稿では,このギャップを埋めるためにIMUSICを提案する。これは純粋IMU信号を用いた表情キャプチャの新しい経路であり,従来の視覚的ソリューションとはかなり離れている。 我々はまず、解剖学駆動型IMU配置スキームを伴って、顔の撮影に適したマイクロIMUを設計する。 そして、多様な表情とパフォーマンスのために、リッチなIMU/視覚信号を提供する新しいIMU-ARKitデータセットをコントリビュートする。 このようなユニークなマルチモダリティは、IMUベースの顔行動分析のような将来の方向性に大きな可能性をもたらす。 さらに、IMU-ARKitを用いて、純IMU信号から顔のブレンドシェープパラメータを正確に予測する強力なベースライン手法を提案する。 具体的には、この新たなトラッキングタスクのための2段階のトレーニング戦略を備えたTransformer拡散モデルを調整する。 IMUSICフレームワークは,視覚的手法が乱れ,同時にユーザのプライバシを保護するシナリオにおいて,正確な顔認証を可能にする。 IMUSICアプローチの有効性を検証するため,IMU構成と技術コンポーネントについて広範な実験を行った。 特に、IMUSICは、プライバシー保護の顔キャプチャー、隠蔽に対するハイブリッドキャプチャー、視覚的手がかりによってしばしば見えない微小な顔の動きの検出など、様々な可能性と斬新な応用を可能にしている。 私たちは、コミュニティにおける顔認識と分析の可能性を高めるために、データセットと実装をリリースします。

For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.
翻訳日:2024-02-07 15:09:41 公開日:2024-02-03
# 実現可能な学習は必要なだけ

Realizable Learning is All You Need ( http://arxiv.org/abs/2111.04746v4 )

ライセンス: Link先を確認
Max Hopkins, Daniel M. Kane, Shachar Lovett, Gaurav Mahajan(参考訳) 実現可能かつ不可知的な学習可能性の同値性は、学習理論における基本的な現象である。 PAC学習や回帰のような古典的な設定から、逆向きに堅牢な学習のような最近のトレンドまで、我々がまだ統一された理論を欠いていることは驚きである。 本研究では,実現可能かつ不可知的な学習可能性の等価性を説明する最初のモデルに依存しないフレームワークについて述べる。 これには、任意の分布仮定による学習や、より一般的な損失関数などの学習可能性の特徴が知られていないモデルや、ロバストな学習、部分的な学習、公正な学習、統計的クエリモデルなどの一般的な設定が含まれる。 より一般に、実現可能で無依存な学習の等価性は、我々が特性一般化と呼ぶより広い現象の特別な場合であると主張する: 有限の仮説クラス上で満たされる学習アルゴリズム(例えば、ノイズ許容性、プライバシー、安定性)の望ましい性質は、(おそらくあるバリエーションにおいて)任意の学習可能な仮説クラスに拡張される。

The equivalence of realizable and agnostic learnability is a fundamental phenomenon in learning theory. With variants ranging from classical settings like PAC learning and regression to recent trends such as adversarially robust learning, it's surprising that we still lack a unified theory; traditional proofs of the equivalence tend to be disparate, and rely on strong model-specific assumptions like uniform convergence and sample compression. In this work, we give the first model-independent framework explaining the equivalence of realizable and agnostic learnability: a three-line blackbox reduction that simplifies, unifies, and extends our understanding across a wide variety of settings. This includes models with no known characterization of learnability such as learning with arbitrary distributional assumptions and more general loss functions, as well as a host of other popular settings such as robust learning, partial learning, fair learning, and the statistical query model. More generally, we argue that the equivalence of realizable and agnostic learning is actually a special case of a broader phenomenon we call property generalization: any desirable property of a learning algorithm (e.g. noise tolerance, privacy, stability) that can be satisfied over finite hypothesis classes extends (possibly in some variation) to any learnable hypothesis class.
翻訳日:2024-02-07 07:41:44 公開日:2024-02-03
# 連続治療による多元的因果調停分析

Multiply Robust Causal Mediation Analysis with Continuous Treatments ( http://arxiv.org/abs/2105.09254v2 )

ライセンス: Link先を確認
Numair Sani, Yizhen Xu, AmirEmad Ghassami, Ilya Shpitser(参考訳) 多くの応用において、研究者は関心の結果に対する治療や暴露の直接的および間接的な因果効果に興味を持っている。 メディエーション分析は、これらの因果効果を特定し、推定するための厳密なフレームワークを提供する。 二項処理では、興味パラメータの影響関数に基づいて、直接的および間接的効果の効率的な推定器がチェトゲン・チェトゲンとシュピッツァー(2012)で提示される。 これらの推定器はマルチロバスト性や漸近正規性といった望ましい性質を持ち、ナンスパラメータの根-n収束率よりも遅い。 しかし、連続的な処理を含む環境では、これらの影響関数に基づく推定器は強力なパラメトリック仮定を作らなければ容易には適用できない。 本研究では,tchetgen tchetgen と shpitser (2012) の影響関数に基づく推定器に触発された連続治療に適した推定器を提案する。 提案手法はクロスフィッティングを採用し,ニュアサンス関数の滑らかさ要件を緩和し,目標パラメータよりも遅い速度で推定できる。 さらに, 影響関数に基づく推定器と同様に, 提案する推定器は多元的に頑健で漸近的に正常であり, パラメトリックモデルが仮定できない場合の推論に適用できる。

In many applications, researchers are interested in the direct and indirect causal effects of a treatment or exposure on an outcome of interest. Mediation analysis offers a rigorous framework for identifying and estimating these causal effects. For binary treatments, efficient estimators for the direct and indirect effects are presented in Tchetgen Tchetgen and Shpitser (2012) based on the influence function of the parameter of interest. These estimators possess desirable properties, such as multiple-robustness and asymptotic normality, while allowing for slower than root-n rates of convergence for the nuisance parameters. However, in settings involving continuous treatments, these influence function-based estimators are not readily applicable without making strong parametric assumptions. In this work, utilizing a kernel-smoothing approach, we propose an estimator suitable for settings with continuous treatments inspired by the influence function-based estimator of Tchetgen Tchetgen and Shpitser (2012). Our proposed approach employs cross-fitting, relaxing the smoothness requirements on the nuisance functions, and allowing them to be estimated at slower rates than the target parameter. Additionally, similar to influence function-based estimators, our proposed estimator is multiply robust and asymptotically normal, making it applicable for inference in settings where a parametric model cannot be assumed.
翻訳日:2024-02-07 07:39:10 公開日:2024-02-03
# BoAT v2 - 凝集型言語に焦点を当てたWebベースの依存性アノテーションツール

BoAT v2 -- A Web-Based Dependency Annotation Tool with Focus on Agglutinative Languages ( http://arxiv.org/abs/2207.01327v2 )

ライセンス: Link先を確認
Salih Furkan Akkurt and B\"u\c{s}ra Mar\c{s}an and Susan Uskudarli(参考訳) 自然言語処理ツールの開発で重要な役割を担っているため、品質の高い木銀行の価値は着実に高まっている。 このような木バンクの作成は労働集約的で時間を要する。 特に、ツリーバンクのサイズを考慮すれば、アノテーションプロセスをサポートするツールが不可欠です。 様々なアノテーションツールが提案されているが、トルコ語のような凝集言語には適さないことが多い。 BoAT v1 は依存性関係を注釈付けするために開発され、その後手動で BOUN Treebank (UD_Turkish-BOUN) を作成した。 本稿では,BoAT v1の使用経験をもとに,依存性アノテーションツールBoAT v2の設計と実装について報告する。 BoAT v2はマルチユーザおよびWebベースの依存性アノテーションツールで、アノテータのユーザエクスペリエンスを重視して、有効なアノテーションを提供する。 ツールの主な目的は、(1)有効で一貫性のあるアノテーションの作成を支援すること、(2)アノテータのユーザエクスペリエンスを大幅に改善すること、(3)アノテータ間のコラボレーションをサポートすること、(4)フレキシブルなアプリケーションプログラミングインタフェース(api)を備えた、オープンソースでデプロイしやすいwebベースのアノテーションツールを提供することである。 本稿では,BoAT v2の要件適用,設計,実装を事例とともに論じる。

The value of quality treebanks is steadily increasing due to the crucial role they play in the development of natural language processing tools. The creation of such treebanks is enormously labor-intensive and time-consuming. Especially when the size of treebanks is considered, tools that support the annotation process are essential. Various annotation tools have been proposed, however, they are often not suitable for agglutinative languages such as Turkish. BoAT v1 was developed for annotating dependency relations and was subsequently used to create the manually annotated BOUN Treebank (UD_Turkish-BOUN). In this work, we report on the design and implementation of a dependency annotation tool BoAT v2 based on the experiences gained from the use of BoAT v1, which revealed several opportunities for improvement. BoAT v2 is a multi-user and web-based dependency annotation tool that is designed with a focus on the annotator user experience to yield valid annotations. The main objectives of the tool are to: (1) support creating valid and consistent annotations with increased speed, (2) significantly improve the user experience of the annotator, (3) support collaboration among annotators, and (4) provide an open-source and easily deployable web-based annotation tool with a flexible application programming interface (API) to benefit the scientific community. This paper discusses the requirements elicitation, design, and implementation of BoAT v2 along with examples.
翻訳日:2024-02-07 07:31:54 公開日:2024-02-03
# 操作完全性に基づく共同現実感の排除実験

Experimentally ruling out joint reality based on operational completeness ( http://arxiv.org/abs/2203.05244v2 )

ライセンス: Link先を確認
Qiuxin Zhang, Yu Xiang, Xiaoting Gao, Chenhao Zhu, Yuxin Wang, Liangyu Ding, Xiang Zhang, Shuaning Zhang, Shuming Cheng, Michael J. W. Hall, Qiongyi He, Wei Zhang(参考訳) 物理系の可観測物が実値を受け入れるかどうかは、自然の深い理解にとって基本的な重要性である。 本研究では,一つの2レベルシステム上で観測可能な2つのオブザーバブルの合同現実が,操作完全性の仮定と相容れないことを確認するため,デバイス非依存実験を行った。 我々は、この不等式を線形および非線形の基準から導かれる特定の不等式に違反してテストするために、閉じ込められた$^{171}{\rm yb}^{+}$ ion上に2つの可観測性を実装する。 さらに,高度に制御可能なデファージングチャネルを導入することにより,非線形基準が雑音に対してより頑健であることを示す。 我々の結果は、量子古典境界線を規定する基本的な限界を押し上げ、他のシナリオで関連する問題を探索する方法を舗装する。

Whether the observables of a physical system admit real values is of fundamental importance to a deep understanding of nature. In this work, we report a device-independent experiment to confirm that the joint reality of two observables on a single two-level system is incompatible with the assumption of operational completeness, which is strictly weaker than that of preparation noncontextuality. We implement two observables on a trapped $^{171}{\rm Yb}^{+}$ ion to test this incompatibility via violation of certain inequalities derived from both linear and nonlinear criteria. Moreover, by introducing a highly controllable dephasing channel, we show that the nonlinear criterion is more robust against noise. Our results push the fundamental limit to delineate the quantum-classical boundary and pave the way for exploring relevant problems in other scenarios.
翻訳日:2024-02-07 07:29:52 公開日:2024-02-03
# gan性能向上のための補助分岐付き新規発電機

A Novel Generator with Auxiliary Branch for Improving GAN Performance ( http://arxiv.org/abs/2112.14968v2 )

ライセンス: Link先を確認
Seung Park and Yong-Goo Shin(参考訳) 生成逆数ネットワーク(GAN)のジェネレータは、前の層が画像の全体構造を学習し、後者が詳細を洗練する粗大な方法で画像生成を学習する。 粗い情報をよく広めるために、最近の研究は通常、複数の残余ブロックを積み重ねて生成器を構築する。 残差ブロックは高品質な画像を生成することができ、安定して訓練することができるが、しばしばネットワーク内の情報の流れを阻害する。 この問題を軽減するために,本論文では,主枝と補助枝の2つの異なる枝から得られた特徴を組み合わせることで,画像を生成する新しいジェネレータアーキテクチャを提案する。 メインブランチの目標は、複数の残差ブロックを通過して画像を生成することであり、補助ブランチは、前層の粗い情報を後層に伝達することである。 また,主枝と補助枝の特徴をうまく組み合わせるために,これらの枝内の情報の流れを制御するゲート機能融合モジュールを提案する。 提案手法の優位性を証明するため,CIFAR-10, CIFAR-100, LSUN, CelebA-HQ, AFHQ, little-ImageNetなど,様々な標準データセットを用いた広範な実験を行った。 さらに,提案手法の一般化能力を示すため,様々なアブレーション研究を行った。 定量的評価により,提案手法はインセプションスコア(IS)とFrechetインセプション距離(FID)の点で印象的なGAN性能を示すことが示された。 例えば、提案手法は、小さなImageNetデータセットのFIDとISスコアをそれぞれ35.13から25.00、20.23から25.57に引き上げる。

The generator in the generative adversarial network (GAN) learns image generation in a coarse-to-fine manner in which earlier layers learn the overall structure of the image and the latter ones refine the details. To propagate the coarse information well, recent works usually build their generators by stacking up multiple residual blocks. Although the residual block can produce a high-quality image as well as be trained stably, it often impedes the information flow in the network. To alleviate this problem, this brief introduces a novel generator architecture that produces the image by combining features obtained through two different branches: the main and auxiliary branches. The goal of the main branch is to produce the image by passing through the multiple residual blocks, whereas the auxiliary branch is to convey the coarse information in the earlier layer to the later one. To combine the features in the main and auxiliary branches successfully, we also propose a gated feature fusion module that controls the information flow in those branches. To prove the superiority of the proposed method, this brief provides extensive experiments using various standard datasets including CIFAR-10, CIFAR-100, LSUN, CelebA-HQ, AFHQ, and tiny-ImageNet. Furthermore, we conducted various ablation studies to demonstrate the generalization ability of the proposed method. Quantitative evaluations prove that the proposed method exhibits impressive GAN performance in terms of Inception score (IS) and Frechet inception distance (FID). For instance, the proposed method boosts the FID and IS scores on the tiny-ImageNet dataset from 35.13 to 25.00 and 20.23 to 25.57, respectively.
翻訳日:2024-02-07 07:27:53 公開日:2024-02-03
# 量子力学と高速スクランブルに関する厳密な普遍境界

Exact universal bounds on quantum dynamics and fast scrambling ( http://arxiv.org/abs/2212.14021v2 )

ライセンス: Link先を確認
Amit Vikram and Victor Galitski(参考訳) マンデルシュタム・タムやマルゴルス・レヴィティン境界のような量子速度限界は、短時間のダイナミクスを制限するエネルギー時間不確実性原理を定量的に定式化する。 量子カオスの中心的な量であるスペクトル形状因子は、既知の速度制限によって設定された対応する状態独立境界よりも厳密な、任意の時間にわたって初期状態の完全な集合の量子力学に普遍的な状態独立境界を設定する。 この境界はさらに、エネルギースペクトルが存在しない時間依存または散逸系のリアルタイムダイナミクスに自然に一般化する。 この結果を用いて、多体システム間の相互作用において情報のばらつきを抑える。 ハミルトニアン系では、相互作用の構造に制限を加えることなく、最も速いスクランブル時間(英語版)の基本的な問題は、フーリエ変換の非負性を含む状態の密度の純粋に数学的性質であることを示す。 これらの境界をsachdev-ye-kitaevモデルで説明し、その「最大にカオス的な」性質にもかかわらず、エンタングルメント生成による十分大きなフェルミオンサブシステムの連続的なスクランブルはサブシステムサイズにおいて指数関数的に長い時間を必要とすることを示した。

Quantum speed limits such as the Mandelstam-Tamm or Margolus-Levitin bounds offer a quantitative formulation of the energy-time uncertainty principle that constrains dynamics over short times. We show that the spectral form factor, a central quantity in quantum chaos, sets a universal state-independent bound on the quantum dynamics of a complete set of initial states over arbitrarily long times, which is tighter than the corresponding state-independent bounds set by known speed limits. This bound further generalizes naturally to the real-time dynamics of time-dependent or dissipative systems where no energy spectrum exists. We use this result to constrain the scrambling of information in interacting many-body systems. For Hamiltonian systems, we show that the fundamental question of the fastest possible scrambling time -- without any restrictions on the structure of interactions -- maps to a purely mathematical property of the density of states involving the non-negativity of Fourier transforms. We illustrate these bounds in the Sachdev-Ye-Kitaev model, where we show that despite its "maximally chaotic" nature, the sustained scrambling of sufficiently large fermion subsystems via entanglement generation requires an exponentially long time in the subsystem size.
翻訳日:2024-02-07 07:21:48 公開日:2024-02-03
# 一般化された非文脈性に対する共通の異論に対処する

Addressing some common objections to generalized noncontextuality ( http://arxiv.org/abs/2302.07282v2 )

ライセンス: Link先を確認
David Schmid, John H. Selby, Robert W. Spekkens(参考訳) 与えられた操作現象学は、いつ古典的説明を許すべきか? 一般化された非文脈的存在論的モデルで実現できるとき。 この方法でこの問題に答えるケースは、多くの先行研究で行われ、一般化された非文脈性の概念の研究を動機付けている。 しかし、この概念の定義や実験的なテストの可能性に関して、多くの批判や懸念が提起されている。 この研究では、これらの最も一般的な論点のいくつかに答える。 そのような反論の1つは、実験の各実行で実際に実験手順が実行された古典的記録の存在は、非文脈性の失敗の証明の必要な要素である操作的同値関係が成立せず、その結果、これらの同値に基づく非古典性の結論が誤っていることを意味する。 この懸念が根拠がない理由を説明します。 我々の反応は、複合システムのサブシステム構造を考慮し、その失敗を証明できる可能性など、一般化された非コンテキスト性に関する特定の事実を明らかにする機会を与える。 同様に、互いに反対する反応を通じて、一般化された非コンテキスト性の概念とその実験的テストに関する未承認事実を解明する。

When should a given operational phenomenology be deemed to admit of a classical explanation? When it can be realized in a generalized-noncontextual ontological model. The case for answering the question in this fashion has been made in many previous works, and motivates research on the notion of generalized noncontextuality. Many criticisms and concerns have been raised, however, regarding the definition of this notion and of the possibility of testing it experimentally. In this work, we respond to some of the most common of these objections. One such objection is that the existence of a classical record of which laboratory procedure was actually performed in each run of an experiment implies that the operational equivalence relations that are a necessary ingredient of any proof of the failure of noncontextuality do not hold, and consequently that conclusions of nonclassicality based on these equivalences are mistaken. We explain why this concern in unfounded. Our response affords the opportunity for us to clarify certain facts about generalized noncontextuality, such as the possibility of having proofs of its failure based on a consideration of the subsystem structure of composite systems. Similarly, through our responses to each of the other objections, we elucidate some under-appreciated facts about the notion of generalized noncontextuality and experimental tests thereof.
翻訳日:2024-02-07 07:05:58 公開日:2024-02-03
# 分位流を伴う分布型グフローネット

Distributional GFlowNets with Quantile Flows ( http://arxiv.org/abs/2302.05793v2 )

ライセンス: Link先を確認
Dinghuai Zhang, Ling Pan, Ricky T. Q. Chen, Aaron Courville, Yoshua Bengio(参考訳) Generative Flow Networks (GFlowNets) は、エージェントが一連の意思決定ステップを通じて複雑な組合せ構造を生成する確率的ポリシーを学ぶ確率的サンプルの新たなファミリーである。 強化学習にインスパイアされたものの、現在のGFlowNetフレームワークの適用性は比較的限られており、報酬関数の確率性は扱えない。 本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 各エッジフローを分位関数を通じてパラメータ化することにより,提案するgflownet学習アルゴリズムは,リスク不確実性を持つシナリオを扱う上で不可欠な,リスクに敏感なポリシを学習することができる。 さらに, 従来の手法と比較して, 決定論的報酬のある設定においても, 従来の手法と比較して, 分布的アプローチが大幅に改善できることが判明した。

Generative Flow Networks (GFlowNets) are a new family of probabilistic samplers where an agent learns a stochastic policy for generating complex combinatorial structure through a series of decision-making steps. Despite being inspired from reinforcement learning, the current GFlowNet framework is relatively limited in its applicability and cannot handle stochasticity in the reward function. In this work, we adopt a distributional paradigm for GFlowNets, turning each flow function into a distribution, thus providing more informative learning signals during training. By parameterizing each edge flow through their quantile functions, our proposed \textit{quantile matching} GFlowNet learning algorithm is able to learn a risk-sensitive policy, an essential component for handling scenarios with risk uncertainty. Moreover, we find that the distributional approach can achieve substantial improvement on existing benchmarks compared to prior methods due to our enhanced training algorithm, even in settings with deterministic rewards.
翻訳日:2024-02-07 07:05:07 公開日:2024-02-03
# テキスト生成のための再パラメータ化離散拡散モデル

A Reparameterized Discrete Diffusion Model for Text Generation ( http://arxiv.org/abs/2302.05737v2 )

ライセンス: Link先を確認
Lin Zheng and Jianbo Yuan and Lei Yu and Lingpeng Kong(参考訳) 本研究は, 離散拡散確率モデルと自然言語生成への応用に関する研究である。 離散拡散過程からのサンプリングの代替的かつ等価な定式化を導出し、この知見を利用して再パラメータ化された離散拡散モデル群を開発する。 派生したジェネリックフレームワークは非常に柔軟で、離散拡散モデルにおける生成過程の新しい視点を提供し、より効果的なトレーニングとデコード技術を備えている。 本研究では,既存の拡散モデルに対して,テキスト生成能力を評価するための広範な実験を行った。

This work studies discrete diffusion probabilistic models with applications to natural language generation. We derive an alternative yet equivalent formulation of the sampling from discrete diffusion processes and leverage this insight to develop a family of reparameterized discrete diffusion models. The derived generic framework is highly flexible, offers a fresh perspective of the generation process in discrete diffusion models, and features more effective training and decoding techniques. We conduct extensive experiments to evaluate the text generation capability of our model, demonstrating significant improvements over existing diffusion models.
翻訳日:2024-02-07 07:04:50 公開日:2024-02-03
# デコーダネットワーク上の逆リプシッツ制約による後部崩壊の制御

Controlling Posterior Collapse by an Inverse Lipschitz Constraint on the Decoder Network ( http://arxiv.org/abs/2304.12770v2 )

ライセンス: Link先を確認
Yuri Kinoshita, Kenta Oono, Kenji Fukumizu, Yuichi Yoshida, Shin-ichi Maeda(参考訳) 変分オートエンコーダ(VAE)は、過去数十年で大きな成功を収めてきた深層生成モデルの1つである。 しかし、実際には、エンコーダが一致したり、あるいは崩壊した場合に発生する後方崩壊と呼ばれる問題に苦しんでおり、前者は入力データの潜在構造からの情報を取得していない。 本研究では,デコーダに逆リプシッツニューラルネットワークを導入し,このアーキテクチャに基づいて,具体的な理論的保証を備えた多種多様なVAEモデルに対する後方崩壊の度合いを,単純かつ明確な方法で制御できる新しい手法を提案する。 また,いくつかの数値実験により,本手法の有効性を示す。

Variational autoencoders (VAEs) are one of the deep generative models that have experienced enormous success over the past decades. However, in practice, they suffer from a problem called posterior collapse, which occurs when the encoder coincides, or collapses, with the prior taking no information from the latent structure of the input data into consideration. In this work, we introduce an inverse Lipschitz neural network into the decoder and, based on this architecture, provide a new method that can control in a simple and clear manner the degree of posterior collapse for a wide range of VAE models equipped with a concrete theoretical guarantee. We also illustrate the effectiveness of our method through several numerical experiments.
翻訳日:2024-02-07 06:56:16 公開日:2024-02-03
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化

LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v4 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, and Ronggang Wang(参考訳) 効果的な受容場(erf)は変換符号化において重要な役割を担っており、変換中にどれだけの冗長性を除去できるか、また逆変換中にテクスチャを合成するのにどれだけの空間的プリエントを使うことができるかを決定する。 既存の手法では、ERFが十分大きくない小さなカーネルのスタックや、高解像度画像符号化の可能性を制限する重い非局所的な注意機構に頼っている。 この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。 具体的には,学習画像圧縮コミュニティにおいて初めて,少ない複雑さを維持しつつ冗長性を向上させるために,カーネルベースの奥行き方向畳み込みをいくつか導入した。 画像の多様性の幅が広いため,自己条件で重みを生成することで畳み込みの適応性を高めることを提案する。 大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。 また,大規模カーネルの潜在能力を十分に活用するためのトレーニング手法の改善についても検討した。 さらに,チャネル間の相互作用を高めるために,チャネル重要度を自己条件で生成する適応的なチャネルワイドビット割り当てを提案する。 提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。 大規模な実験により,提案したLLICモデルは,対応するベースラインよりも大幅に改善され,最先端のパフォーマンスが達成され,性能と複雑性のトレードオフが向上した。

Effective Receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed at most during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERF remains not large enough instead, or heavy non-local attention mechanisms, which limit the potential of high resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in learned image compression community, we introduce a few large kernel-based depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to wide range of image diversity, we propose to enhance the adaptability of convolutions via generating weights in a self-conditioned manner. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter point-wise interactions. We also investigate improved training techniques to fully exploit the potential of large kernels. In addition, to enhance the interactions among channels, we propose the adaptive channel-wise bit allocation via generating channel importance factor in a self-conditioned manner. To demonstrate the effectiveness of proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, LLIC-TCM. Extensive experiments demonstrate our proposed LLIC models have significant improvements over corresponding baselines and achieve state-of-the-art performances and better trade-off between performance and complexity.
翻訳日:2024-02-07 06:55:37 公開日:2024-02-03
# SAMM(Segment Any Medical Model):SAMへの3Dスライダ統合

SAMM (Segment Any Medical Model): A 3D Slicer Integration to SAM ( http://arxiv.org/abs/2304.05622v4 )

ライセンス: Link先を確認
Yihao Liu, Jiaming Zhang, Zhangcong She, Amir Kheradmand and Mehran Armand(参考訳) Segment Anything Model (SAM)は、最も大きなセグメンテーションデータセットでトレーニングされた新しいイメージセグメンテーションツールである。 モデルは、プロンプトによって、一般的なイメージのために高品質のマスクを作成できることを実証した。 しかし,医療画像におけるモデルの性能にはさらなる検証が必要である。 医療画像におけるSAMの開発,評価,応用を支援するため,医療画像コミュニティで広く利用されている画像処理および可視化ソフトウェアであるSAMの3Dスライダへの拡張であるSAMM(Segment Any Medical Model)を紹介した。 3D Slicerのオープンソース拡張とそのデモはGitHubに投稿されている(https://github.com/bingogome/samm)。 SAMMは完全なサイクルの0.6秒のレイテンシを実現し、ほぼリアルタイムで画像マスクを推測できる。

The Segment Anything Model (SAM) is a new image segmentation tool trained with the largest available segmentation dataset. The model has demonstrated that, with prompts, it can create high-quality masks for general images. However, the performance of the model on medical images requires further validation. To assist with the development, assessment, and application of SAM on medical images, we introduce Segment Any Medical Model (SAMM), an extension of SAM on 3D Slicer - an image processing and visualization software extensively used by the medical imaging community. This open-source extension to 3D Slicer and its demonstrations are posted on GitHub (https://github.com/bingogome/samm). SAMM achieves 0.6-second latency of a complete cycle and can infer image masks in nearly real-time.
翻訳日:2024-02-07 06:54:39 公開日:2024-02-03
# 静的からイベント領域へのスパイクニューラルネットワークの効率的な知識伝達戦略

An Efficient Knowledge Transfer Strategy for Spiking Neural Networks from Static to Event Domain ( http://arxiv.org/abs/2303.13077v2 )

ライセンス: Link先を確認
Xiang He, Dongcheng Zhao, Yang Li, Guobin Shen, Qingqun Kong, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は時空間力学に富み、イベントベースのニューロモルフィックデータ処理に適している。 しかしながら、イベントベースのデータセットは通常、静的データセットよりもアノテーションが少ない。 この小さなデータスケールにより、SNNはパフォーマンスを過度に調整し、制限する傾向にある。 イベントベースデータセット上でのSNNの一般化能力を改善するため,静的画像を用いてイベントデータのSNNトレーニングを支援する。 本稿では,静的データセット上でトレーニングされたネットワークを直接イベントデータに転送する場合に発生するドメインミスマッチ問題について論じる。 我々は,特徴分布の不整合が静的画像からイベントデータへの知識の効果的な伝達を妨げる主要な要因となることを論じる。 この問題に対処するために,特徴分布とトレーニング戦略という2つの側面の解を提案する。 まず,ドメインアライメント損失と時空間正規化からなる知識伝達損失を提案する。 ドメインアライメント損失は、静的画像とイベントデータの間の限界分布距離を小さくすることにより、ドメイン不変空間特徴を学習する。 時空間正規化は、各時間ステップにおけるイベントデータの出力特徴を正規化項として使用することにより、ドメインアライメント損失に対する動的に学習可能な係数を提供する。 さらに,静的画像入力を確率的にイベントデータに置き換え,ネットワークのスムースで安定したトレーニングを実現するスライディングトレーニング戦略を提案する。 我々は,N-Caltech101,CEP-DVS,N-Omniglotを含むニューロモルフィックデータセットについて検証した。 実験の結果,提案手法は現在の最先端手法と比較して,全データセットの性能が向上することが示された。 コードはhttps://github.com/Brain-Cog-Lab/Transfer-for-DVSで入手できる。

Spiking neural networks (SNNs) are rich in spatio-temporal dynamics and are suitable for processing event-based neuromorphic data. However, event-based datasets are usually less annotated than static datasets. This small data scale makes SNNs prone to overfitting and limits their performance. In order to improve the generalization ability of SNNs on event-based datasets, we use static images to assist SNN training on event data. In this paper, we first discuss the domain mismatch problem encountered when directly transferring networks trained on static datasets to event data. We argue that the inconsistency of feature distributions becomes a major factor hindering the effective transfer of knowledge from static images to event data. To address this problem, we propose solutions in terms of two aspects: feature distribution and training strategy. Firstly, we propose a knowledge transfer loss, which consists of domain alignment loss and spatio-temporal regularization. The domain alignment loss learns domain-invariant spatial features by reducing the marginal distribution distance between the static image and the event data. Spatio-temporal regularization provides dynamically learnable coefficients for domain alignment loss by using the output features of the event data at each time step as a regularization term. In addition, we propose a sliding training strategy, which gradually replaces static image inputs probabilistically with event data, resulting in a smoother and more stable training for the network. We validate our method on neuromorphic datasets, including N-Caltech101, CEP-DVS, and N-Omniglot. The experimental results show that our proposed method achieves better performance on all datasets compared to the current state-of-the-art methods. Code is available at https://github.com/Brain-Cog-Lab/Transfer-for-DVS.
翻訳日:2024-02-07 06:52:56 公開日:2024-02-03
# Uni-Fusion: ユニバーサルな継続的マッピング

Uni-Fusion: Universal Continuous Mapping ( http://arxiv.org/abs/2303.12678v3 )

ライセンス: Link先を確認
Yijun Yuan, Andreas Nuechter(参考訳) 本稿では,表面の普遍的な連続マッピングフレームワークであるuni-fusionと,表面特性(色,赤外線など)など(クリップ埋め込み空間の相対的特徴など)について述べる。 本稿では,幾何と異なる特性(rgb,赤外線,特徴など)のエンコーディングをトレーニングを必要とせずにサポートする,最初の普遍的暗黙的符号化モデルを提案する。 これに基づいて,本フレームワークは点雲を正規格子ボクセルに分割し,各ボクセルに潜時特徴を生成し,測地および任意特性のための潜時インプリシットマップ(LIM)を作成する。 そして、局所的なLIMをグローバルなLIMにフレームワイズすることで、漸進的な再構成を実現する。 対応するタイプのデータをエンコードして、Latent Implicit Mapは、連続した表面、表面特性フィールド、表面特徴フィールド、その他のあらゆるオプションを生成することができます。 1) 表面と色をインクリメンタルに再構成する(2) 作製された特性の2D-to-3D変換を行う(3) テキストCLIP機能フィールドを表面上に作成することで、オープン語彙のシーン理解を実現する。 我々は、UniFusionを対応するアプリケーションで比較することで評価し、UniFusionは様々なアプリケーションで高い柔軟性を示しながら、最高の性能や競争力を発揮する。 Uni-Fusionのプロジェクトページはhttps://jarrome.github.io/Uni-Fusion/ で公開されている。

We present Uni-Fusion, a universal continuous mapping framework for surfaces, surface properties (color, infrared, etc.) and more (latent features in CLIP embedding space, etc.). We propose the first universal implicit encoding model that supports encoding of both geometry and different types of properties (RGB, infrared, features, etc.) without requiring any training. Based on this, our framework divides the point cloud into regular grid voxels and generates a latent feature in each voxel to form a Latent Implicit Map (LIM) for geometries and arbitrary properties. Then, by fusing a local LIM frame-wisely into a global LIM, an incremental reconstruction is achieved. Encoded with corresponding types of data, our Latent Implicit Map is capable of generating continuous surfaces, surface property fields, surface feature fields, and all other possible options. To demonstrate the capabilities of our model, we implement three applications: (1) incremental reconstruction for surfaces and color (2) 2D-to-3D transfer of fabricated properties (3) open-vocabulary scene understanding by creating a text CLIP feature field on surfaces. We evaluate Uni-Fusion by comparing it in corresponding applications, from which Uni-Fusion shows high-flexibility in various applications while performing best or being competitive. The project page of Uni-Fusion is available at https://jarrome.github.io/Uni-Fusion/ .
翻訳日:2024-02-07 06:52:30 公開日:2024-02-03
# ゼロショットビデオオブジェクトセグメンテーションのための適応型マルチソース予測器

Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation ( http://arxiv.org/abs/2303.10383v2 )

ライセンス: Link先を確認
Xiaoqi Zhao, Shijie Chang, Youwei Pang, Jiaxing Yang, Lihe Zhang, Huchuan Lu(参考訳) 静的で動く物体は実写ビデオでしばしば起こる。 ほとんどのビデオオブジェクトセグメンテーションは、移動物体を知覚する動きの手がかりの抽出と活用にのみ焦点を合わせている。 静的物体のフレームに直面すると、移動物体予測器は、低品質の光フローマップのような不確実な動き情報による失敗を予測できる。 さらに、rgb、深さ、光流、静塩分などの異なるソースは、オブジェクトに関する有用な情報を提供することができる。 しかし、既存のアプローチではrgbとrgbと光学フローの両方しか考慮していない。 本稿では,ゼロショット映像オブジェクトセグメンテーション(zvos)のための適応型マルチソース予測器を提案する。 静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。 移動物体予測器において,マルチソース融合構造を提案する。 まず、各ソースの空間的重要性を、知覚的空間的注意モジュール(ISAM)の助けを借りて強調する。 第二に、動き強調モジュール(MEM)は、デコーダにおける静的および移動的特徴の表現を改善するために、純粋な前景運動注意を生成するように設計されている。 さらに、ソース間互換性のない機能をフィルタリングする機能浄化モジュール(FPM)を設計する。 ISAM、MEM、FPMを使用することで、マルチソース機能は効果的に融合される。 さらに,光フローマップの品質を評価するための適応型予測器融合ネットワーク(apf)を構築し,静止物体予測器と移動物体予測器からの予測を融合することにより,低品質光フローマップの失敗結果への過度な依存を防止する。 実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。 そして、静的オブジェクト予測器は、高品質の深度マップと静的塩分マップを同時に正確に予測する。

Static and moving objects often occur in real-life videos. Most video object segmentation methods only focus on extracting and exploiting motion cues to perceive moving objects. Once faced with the frames of static objects, the moving object predictors may predict failed results caused by uncertain motion information, such as low-quality optical flow maps. Besides, different sources such as RGB, depth, optical flow and static saliency can provide useful information about the objects. However, existing approaches only consider either the RGB or RGB and optical flow. In this paper, we propose a novel adaptive multi-source predictor for zero-shot video object segmentation (ZVOS). In the static object predictor, the RGB source is converted to depth and static saliency sources, simultaneously. In the moving object predictor, we propose the multi-source fusion structure. First, the spatial importance of each source is highlighted with the help of the interoceptive spatial attention module (ISAM). Second, the motion-enhanced module (MEM) is designed to generate pure foreground motion attention for improving the representation of static and moving features in the decoder. Furthermore, we design a feature purification module (FPM) to filter the inter-source incompatible features. By using the ISAM, MEM and FPM, the multi-source features are effectively fused. In addition, we put forward an adaptive predictor fusion network (APF) to evaluate the quality of the optical flow map and fuse the predictions from the static object predictor and the moving object predictor in order to prevent over-reliance on the failed results caused by low-quality optical flow maps. Experiments show that the proposed model outperforms the state-of-the-art methods on three challenging ZVOS benchmarks. And, the static object predictor precisely predicts a high-quality depth map and static saliency map at the same time.
翻訳日:2024-02-07 06:51:34 公開日:2024-02-03
# コード分類のための抽象構文木(AST)上の不均一方向ハイパーグラフニューラルネットワーク

Heterogeneous Directed Hypergraph Neural Network over abstract syntax tree (AST) for Code Classification ( http://arxiv.org/abs/2305.04228v3 )

ライセンス: Link先を確認
Guang Yang, Tiancheng Jin, Liang Dou(参考訳) コード分類は、プログラム理解と自動コーディングにおいて難しい問題である。 プログラムの構文と複雑な意味論のため、既存の研究の多くは抽象構文木(AST)とグラフニューラルネットワーク(GNN)に基づいてコード分類のためのコード表現を作成する。 これらの手法は、コードの構造と意味情報を利用するが、それらはペアの関連を考慮に入れ、AST内のノード間で既に存在する高次相関を無視するだけであり、コード構造情報が失われる可能性がある。 一方、一般的なハイパーグラフは高次データ相関を符号化できるが、ASTをモデル化する際には、ノードタイプ、エッジタイプ、子ノードと親ノード間の方向といった意味的および構造的な情報が欠如する。 本研究では,ヘテロジニアス指向ハイパーグラフ (HDHG) としてASTを表現し,コード分類のためのヘテロジニアス指向ハイパーグラフニューラルネットワーク (HDHGN) によるグラフ処理を提案する。 提案手法はコード理解を改良し,ペア間相互作用以外の高次データ相関を表現できる。 我々は,Python と Java プログラムの公開データセットからヘテロジニアス指向のハイパーグラフニューラルネットワーク (HDHGN) を評価する。 提案手法は従来のAST法およびGNN法よりも優れており,本モデルの有効性を示す。

Code classification is a difficult issue in program understanding and automatic coding. Due to the elusive syntax and complicated semantics in programs, most existing studies use techniques based on abstract syntax tree (AST) and graph neural network (GNN) to create code representations for code classification. These techniques utilize the structure and semantic information of the code, but they only take into account pairwise associations and neglect the high-order correlations that already exist between nodes in the AST, which may result in the loss of code structural information. On the other hand, while a general hypergraph can encode high-order data correlations, it is homogeneous and undirected which will result in a lack of semantic and structural information such as node types, edge types, and directions between child nodes and parent nodes when modeling AST. In this study, we propose to represent AST as a heterogeneous directed hypergraph (HDHG) and process the graph by heterogeneous directed hypergraph neural network (HDHGN) for code classification. Our method improves code understanding and can represent high-order data correlations beyond paired interactions. We assess heterogeneous directed hypergraph neural network (HDHGN) on public datasets of Python and Java programs. Our method outperforms previous AST-based and GNN-based methods, which demonstrates the capability of our model.
翻訳日:2024-02-07 06:40:52 公開日:2024-02-03
# 非ラベルデータサンプリングを最適化した半教師あり学習によるベイズ最適化

High-Dimensional Bayesian Optimization via Semi-Supervised Learning with Optimized Unlabeled Data Sampling ( http://arxiv.org/abs/2305.02614v3 )

ライセンス: Link先を確認
Yuxuan Yin, Yu Wang and Peng Li(参考訳) 我々は,教師-学生のパラダイムをBOに統合し,高価なラベル付きデータクエリを最小化するために,教師-学生ベイズ最適化(\texttt{TSBO}$)という,新しい半教師付き学習手法を導入する。 $\texttt{TSBO}$には、教師モデル、ラベルなしデータサンプルラ、学生モデルが含まれている。 学生は、教師が予測した擬似ラベルを用いて、サンプリング者が生成したラベルなしのデータロケーションを訓練する。 これら3つのコンポーネント間の相互作用は、生徒のフィードバックという形で教師に対するユニークな選択的正規化を実装している。 このスキームにより,教師は高品質な擬似ラベルを予測でき,検索空間におけるGP代理モデルの一般化が促進される。 我々は,$\texttt{TSBO}$をフル活用するために,ベイズ最適化の目的とよく一致した効果的な学生フィードバックを構築するために,ラベルなしデータサンプリングを2つ提案する。 さらに,リスクの高い疑似ラベル予測が存在する教師への信頼度の高いフィードバック提供のために,教師・生徒モデルの不確かさを定量化し,活用する。 $\texttt{TSBO}$は、厳密なラベル付きデータ予算の下で、いくつかのグローバル最適化タスクにおいて、サンプル効率が大幅に改善されたことを示す。

We introduce a novel semi-supervised learning approach, named Teacher-Student Bayesian Optimization ($\texttt{TSBO}$), integrating the teacher-student paradigm into BO to minimize expensive labeled data queries for the first time. $\texttt{TSBO}$ incorporates a teacher model, an unlabeled data sampler, and a student model. The student is trained on unlabeled data locations generated by the sampler, with pseudo labels predicted by the teacher. The interplay between these three components implements a unique selective regularization to the teacher in the form of student feedback. This scheme enables the teacher to predict high-quality pseudo labels, enhancing the generalization of the GP surrogate model in the search space. To fully exploit $\texttt{TSBO}$, we propose two optimized unlabeled data samplers to construct effective student feedback that well aligns with the objective of Bayesian optimization. Furthermore, we quantify and leverage the uncertainty of the teacher-student model for the provision of reliable feedback to the teacher in the presence of risky pseudo-label predictions. $\texttt{TSBO}$ demonstrates significantly improved sample-efficiency in several global optimization tasks under tight labeled data budgets.
翻訳日:2024-02-07 06:40:11 公開日:2024-02-03
# 脳波発作予測のための教師付き・教師なしディープラーニングアプローチ

Supervised and Unsupervised Deep Learning Approaches for EEG Seizure Prediction ( http://arxiv.org/abs/2304.14922v3 )

ライセンス: Link先を確認
Zakary Georgis-Yap, Milos R. Popovic, Shehroz S. Khan(参考訳) てんかんは全世界で5000万人以上の人々に影響を与え、世界有数の神経疾患となっている。 てんかんの主な症状は発作であり、突然発生し、重傷や死を引き起こすことがある。 てんかん発作の発生を予測する能力は、多くのリスクを軽減し、てんかんの顔を持つ人々にストレスを与える。 入射前発作の前兆として, 正常脳波(preictal, pre-seizure)を検出する問題を定式化する。 そこで我々は,脳波から前頭前頭脳波を識別するための教師付き深層学習手法を開発した。 さらに,通常の脳波のみを学習するための新しい教師なし深層学習手法を開発し,異常事象である前脳波を検出する。 これらの深層学習モデルは、個人固有の方法で2つの大きな脳波発作データセットで訓練され評価された。 我々は,教師付きアプローチと教師なしアプローチの両方が実現可能であることを見出したが,その性能は患者,アプローチ,アーキテクチャによって異なる。 この新たな研究は、治療介入を開発し、人間の命を救う可能性がある。

Epilepsy affects more than 50 million people worldwide, making it one of the world's most prevalent neurological diseases. The main symptom of epilepsy is seizures, which occur abruptly and can cause serious injury or death. The ability to predict the occurrence of an epileptic seizure could alleviate many risks and stresses people with epilepsy face. We formulate the problem of detecting preictal (or pre-seizure) with reference to normal EEG as a precursor to incoming seizure. To this end, we developed several supervised deep learning approaches to identify preictal EEG from normal EEG. We further develop novel unsupervised deep learning approaches to train the models on only normal EEG, and detecting pre-seizure EEG as an anomalous event. These deep learning models were trained and evaluated on two large EEG seizure datasets in a person-specific manner. We found that both supervised and unsupervised approaches are feasible; however, their performance varies depending on the patient, approach and architecture. This new line of research has the potential to develop therapeutic interventions and save human lives.
翻訳日:2024-02-07 06:39:50 公開日:2024-02-03
# テキスト分類と周辺分析における純粋相関の理解と緩和

Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis ( http://arxiv.org/abs/2305.13654v3 )

ライセンス: Link先を確認
Oscar Chew, Hsuan-Tien Lin, Kai-Wei Chang, Kuan-Hao Huang(参考訳) 近年の研究では、機械学習モデルはトレーニングセットに存在するが、一般的な状況では当てはまらない刺激的な相関を利用する傾向にあることが明らかになった。 例えば、感情分類器は誤ってトークン「パフォーマンス」が肯定的な映画レビューと一般的に関連していることを学習することができる。 これらのスプリアス相関に依存すると、分散外データにデプロイすると、分類器のパフォーマンスが低下する。 本稿では, 周辺分析と呼ばれる新たな視点から, 突発的相関の影響を考察する。 この分析は、スプリアス相関が非関係な単語を埋め込み空間に誤って集結させる方法を明らかにする。 この分析により,スプリアストークンを検出するためのメトリクスを設計し,テキスト分類におけるスプリアス相関を緩和する正規化手法であるNFL(DoN't Forget your Language)を提案する。 実験により、nflは誤クラスタを効果的に防止し、補助データなしで分類器のロバスト性を大幅に改善できることが示されている。 コードはhttps://github.com/oscarchew/doNt-Forget-your-Languageで公開されている。

Recent research has revealed that machine learning models have a tendency to leverage spurious correlations that exist in the training set but may not hold true in general circumstances. For instance, a sentiment classifier may erroneously learn that the token "performances" is commonly associated with positive movie reviews. Relying on these spurious correlations degrades the classifiers performance when it deploys on out-of-distribution data. In this paper, we examine the implications of spurious correlations through a novel perspective called neighborhood analysis. The analysis uncovers how spurious correlations lead unrelated words to erroneously cluster together in the embedding space. Driven by the analysis, we design a metric to detect spurious tokens and also propose a family of regularization methods, NFL (doN't Forget your Language) to mitigate spurious correlations in text classification. Experiments show that NFL can effectively prevent erroneous clusters and significantly improve the robustness of classifiers without auxiliary data. The code is publicly available at https://github.com/oscarchew/doNt-Forget-your-Language.
翻訳日:2024-02-07 06:28:56 公開日:2024-02-03
# 双曲型知識グラフ埋め込みのための3次元回転と翻訳

3D Rotation and Translation for Hyperbolic Knowledge Graph Embedding ( http://arxiv.org/abs/2305.13015v2 )

ライセンス: Link先を確認
Yihua Zhu, Hidetoshi Shimodaira(参考訳) 知識グラフ(kg)埋め込みの主な目的は、エンティティと関係の低次元表現を学習し、欠落した事実の予測を可能にすることである。 より良いKG埋め込みを達成する上での重要な課題は、対称性、反対称性、反転、可換合成、非可換合成、階層、多重性を含む関係パターンを捉えることである。 本研究では,これらの関係パターンを同時に捉える3H-TH(3次元回転変換)モデルを提案する。 対照的に、以前の試みは、すべてのプロパティに対して同時に満足なパフォーマンスを達成していない。 実験結果から,新しいモデルは,高次元空間において,精度,階層性,その他の関係パターンにおいて,既存の最先端モデルよりも優れ,一方,高次元空間では同様の性能を示すことが示された。

The main objective of Knowledge Graph (KG) embeddings is to learn low-dimensional representations of entities and relations, enabling the prediction of missing facts. A significant challenge in achieving better KG embeddings lies in capturing relation patterns, including symmetry, antisymmetry, inversion, commutative composition, non-commutative composition, hierarchy, and multiplicity. This study introduces a novel model called 3H-TH (3D Rotation and Translation in Hyperbolic space) that captures these relation patterns simultaneously. In contrast, previous attempts have not achieved satisfactory performance across all the mentioned properties at the same time. The experimental results demonstrate that the new model outperforms existing state-of-the-art models in terms of accuracy, hierarchy property, and other relation patterns in low-dimensional space, meanwhile performing similarly in high-dimensional space.
翻訳日:2024-02-07 06:28:26 公開日:2024-02-03
# 予測をフリップする最小トレーニングサブセットのリラベル

Relabeling Minimal Training Subset to Flip a Prediction ( http://arxiv.org/abs/2305.12809v4 )

ライセンス: Link先を確認
Jinghan Yang, Linjie Xu, Lequan Yu(参考訳) 機械学習モデルから満足のいく予測に直面すると、ユーザーは基礎となる理由を調査し、結果を逆転する可能性を探ることに興味を持つことができる。 テストポイント $x_t$ で予測をひっくり返すには、relabel に必要な最小のトレーニングサブセット $\mathcal{s}_t$ をどうやって特定すればよいか? 凸損失を持つ二項分類モデルに対する拡張影響関数を用いて、そのようなサブセットを同定し、レバー化する効率的なアルゴリズムを提案する。 トレーニングポイントの2%未満を許容することは、常に予測を覆すことができる。 このメカニズムは、(1) トレーニングポイントを変更することによってモデル予測に挑戦するアプローチを提供すること、(2) 部分集合の濃度とモデルロバスト性を評価すること(すなわち、$|\mathcal{s}_t|$)、そして、$|\mathcal{s}_t|$ がトレーニングセットのノイズ比と非常に関連していること、および$||\mathcal{s}_t|$ が相関しているが予測確率に相補的であること、(3) グループ帰属バイアスにつながるトレーニングポイントを明らかにすることである。 私たちの知る限りでは、私たちは、与えられた予測を覆すのに必要な最小限のトレーニングサブセットを特定し、緩和することについて、最初に調査します。

When facing an unsatisfactory prediction from a machine learning model, users can be interested in investigating the underlying reasons and exploring the potential for reversing the outcome. We ask: To flip the prediction on a test point $x_t$, how to identify the smallest training subset $\mathcal{S}_t$ that we need to relabel? We propose an efficient algorithm to identify and relabel such a subset via an extended influence function for binary classification models with convex loss. We find that relabeling fewer than 2% of the training points can always flip a prediction. This mechanism can serve multiple purposes: (1) providing an approach to challenge a model prediction by altering training points; (2) evaluating model robustness with the cardinality of the subset (i.e., $|\mathcal{S}_t|$); we show that $|\mathcal{S}_t|$ is highly related to the noise ratio in the training set and $|\mathcal{S}_t|$ is correlated with but complementary to predicted probabilities; and (3) revealing training points lead to group attribution bias. To the best of our knowledge, we are the first to investigate identifying and relabeling the minimal training subset required to flip a given prediction.
翻訳日:2024-02-07 06:28:10 公開日:2024-02-03
# クロスモーダル選択自己学習によるゼロショットエンドツーエンド音声言語理解

Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal Selective Self-Training ( http://arxiv.org/abs/2305.12793v2 )

ライセンス: Link先を確認
Jianfeng He, Julian Salazar, Kaisheng Yao, Haoqi Li, Jinglun Cai(参考訳) エンド・ツー・エンド(E2E)音声言語理解(SLU)は、特にラベル領域が変化する場合、音声と音声のペアを収集するコストによって制約される。 そこで,テキスト・セマンティック・ペアを使わずにE2E SLUを学習する「textit{zero-shot} E2E SLU」を探索する。 以前の研究は、テキスト・セマンティクス・コーパスで学習した自然言語理解(nlu)モデルを用いて、すべての音声テキストの書き起こしを疑似ラベル付けすることでゼロショットを達成した。 しかし,この手法ではテキストとテキストのセマンティクスのドメインが一致する必要がある。 さらに、任意のドメインから収集された音声テキストコーパス全体を使用することで、 \textit{imbalance} と \textit{noise} の問題が発生する。 このような問題に対処するため,我々はCMSST (textit{cross-modal selective self-training}) を提案する。 CMSSTは3つのモード(音声、テキスト、セマンティクス)の結合空間にクラスタリングすることで不均衡に取り組み、選択ネットワークでラベルノイズを処理する。 また、ゼロショットE2E SLUの2つのベンチマークを導入し、一致した音声(ミスマッチした音声)をカバーした。 実験の結果、CMSSTは2つの設定でパフォーマンスが向上し、サンプルサイズとトレーニング時間が大幅に短縮された。 私たちのコードとデータはhttps://github.com/amazon-science/zero-shot-E2E-sluで公開されています。

End-to-end (E2E) spoken language understanding (SLU) is constrained by the cost of collecting speech-semantics pairs, especially when label domains change. Hence, we explore \textit{zero-shot} E2E SLU, which learns E2E SLU without speech-semantics pairs, instead using only speech-text and text-semantics pairs. Previous work achieved zero-shot by pseudolabeling all speech-text transcripts with a natural language understanding (NLU) model learned on text-semantics corpora. However, this method requires the domains of speech-text and text-semantics to match, which often mismatch due to separate collections. Furthermore, using the entire collected speech-text corpus from any domains leads to \textit{imbalance} and \textit{noise} issues. To address these, we propose \textit{cross-modal selective self-training} (CMSST). CMSST tackles imbalance by clustering in a joint space of the three modalities (speech, text, and semantics) and handles label noise with a selection network. We also introduce two benchmarks for zero-shot E2E SLU, covering matched and found speech (mismatched) settings. Experiments show that CMSST improves performance in both two settings, with significantly reduced sample sizes and training time. Our code and data are released in https://github.com/amazon-science/zero-shot-E2E-slu.
翻訳日:2024-02-07 06:27:37 公開日:2024-02-03
# DocChecker: コード構成の不整合の検出と解決のための大規模言語モデルのブートストラップ

DocChecker: Bootstrapping Code Large Language Model for Detecting and Resolving Code-Comment Inconsistencies ( http://arxiv.org/abs/2306.06347v3 )

ライセンス: Link先を確認
Anh T. V. Dau, Jin L. C. Guo, Nghi D. Q. Bui(参考訳) ソースコード内のコメントは、開発者がコードの目的を理解し、正しい使い方を保証するために不可欠である。 しかし、コードベースが進化するにつれて、コメントとコードの正確な整合性を維持することはますます困難になっている。 コードとそれに伴うコメントの差を検出し修正する自動化ソリューションへの関心が高まっていることを認識し、現在の手法は主にヒューリスティックなルールに依存している。 これとは対照的に,ディープラーニングを利用したDocCheckerを提案する。 DocCheckerはコードとコメントの不一致を識別する能力があり、合成コメントを生成することもできる。 この機能は、コメントが対応するコードセグメントを正確に反映しないインスタンスの検出と修正を可能にする。 我々は,Just-In-TimeデータセットとCodeXGlueデータセットを用いて,DocCheckerの有効性を示す。 特にDocCheckerは、ICCD(Inconsistency Code-Comment Detection)タスクで72.3%、他のLLM(Large Language Models)に対するコード要約タスクで33.64 BLEU-4の精度で、GPT 3.5やCodeLlamaを超えている。 DocCheckerの使用と評価が可能である。 GitHub https://github.com/FSoft-AI4Code/DocChecker と Online Tool http://4.193.50.237:5000/ で確認できます。 機能の詳細については、YouTube https://youtu.be/FqnPmd531xw.comでデモビデオが公開されている。

Comments within source code are essential for developers to comprehend the code's purpose and ensure its correct usage. However, as codebases evolve, maintaining an accurate alignment between the comments and the code becomes increasingly challenging. Recognizing the growing interest in automated solutions for detecting and correcting differences between code and its accompanying comments, current methods rely primarily on heuristic rules. In contrast, this paper presents DocChecker, a tool powered by deep learning. DocChecker is adept at identifying inconsistencies between code and comments, and it can also generate synthetic comments. This capability enables the tool to detect and correct instances where comments do not accurately reflect their corresponding code segments. We demonstrate the effectiveness of DocChecker using the Just-In-Time and CodeXGlue datasets in different settings. Particularly, DocChecker achieves a new State-of-the-art result of 72.3% accuracy on the Inconsistency Code-Comment Detection (ICCD) task and 33.64 BLEU-4 on the code summarization task against other Large Language Models (LLMs), even surpassing GPT 3.5 and CodeLlama. DocChecker is accessible for use and evaluation. It can be found on our GitHub https://github.com/FSoft-AI4Code/DocChecker and as an Online Tool http://4.193.50.237:5000/. For a more comprehensive understanding of its functionality, a demonstration video is available on YouTube https://youtu.be/FqnPmd531xw.
翻訳日:2024-02-07 06:19:40 公開日:2024-02-03
# クラウドと大陸をまたいだディープラーニングモデルをどうやってトレーニングできるのか? 実験的検討

How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study ( http://arxiv.org/abs/2306.03163v3 )

ライセンス: Link先を確認
Alexander Erben, Ruben Mayer, Hans-Arno Jacobsen(参考訳) ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か? そこで本研究では,CV,NLP,ASRモデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットの影響を広範囲に評価した。 現在のトレーニングオプションをさらに拡大するために、オンプレミスハードウェアにクラウドリソースを追加してトレーニングスループットを向上させることで、ハイブリッドクラウドシナリオのスケーラビリティ可能性を比較する。 最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。

This paper aims to answer the question: Can deep learning models be cost-efficiently trained on a global market of spot VMs spanning different data centers and cloud providers? To provide guidance, we extensively evaluate the cost and throughput implications of training in different zones, continents, and clouds for representative CV, NLP, and ASR models. To expand the current training options further, we compare the scalability potential for hybrid-cloud scenarios by adding cloud resources to on-premise hardware to improve training throughput. Finally, we show how leveraging spot instance pricing enables a new cost-efficient way to train models with multiple cheap VMs, trumping both more centralized and powerful hardware and even on-demand cloud offerings at competitive prices.
翻訳日:2024-02-07 06:17:15 公開日:2024-02-03
# システムレベル自然言語フィードバック

System-Level Natural Language Feedback ( http://arxiv.org/abs/2306.13588v3 )

ライセンス: Link先を確認
Weizhe Yuan, Kyunghyun Cho, Jason Weston(参考訳) 自然言語(NL)フィードバックは、ユーザエクスペリエンスに関する豊富な洞察を提供する。 既存の研究では、特定の例を洗練するためにフィードバックが使用されるインスタンスレベルのアプローチに重点を置いているが、NLフィードバックのシステムレベルの利用のためのフレームワークを導入する。 より優れたモデルを生成するために、フィードバックを使って、ヒューマン・イン・ザ・ループ・プロセスでシステムレベルの設計決定をフォーマル化する方法を紹介します。 特にこれは次の通りである。 (i)タスクのメートル法設計、及び (ii) モデル応答を洗練するための言語モデルプロンプト設計。 本手法は,検索クエリと対話応答生成を改善するための2つのケーススタディを行い,システムレベルのフィードバックの有効性を実証する。 システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせにより、さらなる利得が得られ、人間の記述されたインスタンスレベルのフィードバックは、GPT-3.5のフィードバックよりも、より基礎的な改善をもたらすことを示す。 コードとデータはhttps://github.com/yy-Apple/Sys-NL-Feedback.comで公開しています。

Natural language (NL) feedback offers rich insights into user experience. While existing studies focus on an instance-level approach, where feedback is used to refine specific examples, we introduce a framework for system-level use of NL feedback. We show how to use feedback to formalize system-level design decisions in a human-in-the-loop-process -- in order to produce better models. In particular this is done through: (i) metric design for tasks; and (ii) language model prompt design for refining model responses. We conduct two case studies of this approach for improving search query and dialog response generation, demonstrating the effectiveness of system-level feedback. We show the combination of system-level and instance-level feedback brings further gains, and that human written instance-level feedback results in more grounded refinements than GPT-3.5 written ones, underlying the importance of human feedback for building systems. We release our code and data at https://github.com/yyy-Apple/Sys-NL-Feedback.
翻訳日:2024-02-07 06:05:54 公開日:2024-02-03
# 階層的階層化と階層化プロセス(ihrp) : 密結合システムに対する新しい効果的な階層化手法と学生成績評価の事例研究

Iterative Hierarchy and Ranking Process (IHRP): A Novel Effective Hierarchy Method for Densely Connected Systems and Case Study in Student Performance Assessment ( http://arxiv.org/abs/2306.10409v2 )

ライセンス: Link先を確認
Suvojit Dhara and Adrijit Goswami(参考訳) 実際の意思決定問題では、決定属性に対する要因の影響を決定することが重要な課題である。 決定属性に最も影響を与えるためには、要因間の適切な階層を見つけ、システムにおけるそれらの重要値を決定することが非常に重要である。 解釈構造モデリング(ISM)は、専門家の意見に基づいて要素間影響をマイニングする階層構築手法として広く用いられている。 本稿では,従来のISM法の主な欠点の1つとして,これらの要因が密接な相互関係を持つシステムについて述べる。 このようなシステムを "dense system" と呼ぶ。 本稿では,このような高密度システムにおいて効果的に機能する「Iterative Hierarchy and Ranking Process(IHRP)」と呼ばれる新しい階層構築手法を提案する。 専門家の意見の曖昧さを考慮に入れるため、直観主義的ファジィ言語学は研究に使われてきた。 本稿では,その階層的位置に基づくシステムにおける要因の相対的重要性を2段階計算し,それに従って因子をランク付けする。 本研究は,インドにおける新しい高校行政因子のデータを調査によって収集し,学生の成績評価を事例的に検討した。 提案手法と従来のism法で達成した因子ランキングとtopsisやvikorなどの標準的外格法との比較検討を行った。 提案手法は従来のISM法と比較して85-95%の相関性が得られる。 このことは,従来の手法,特に高密度システムよりも優れた階層構造を決定するための提案手法の有効性を実証する。

In real-life decision-making problems, determining the influences of the factors on the decision attribute is one of the primary tasks. To affect the decision attribute most, finding a proper hierarchy among the factors and determining their importance values in the system becomes quite important. Interpretive structural modeling (ISM) is a widely used hierarchy-building method that mines factor inter-influences based on expert opinions. This paper discusses one of the main drawbacks of the conventional ISM method in systems where the factors are densely interrelated. We refer to such systems as "dense systems". We propose a novel iterative hierarchy-building technique, called 'Iterative Hierarchy and Ranking Process'(IHRP) which performs effectively in such dense systems. To take the vagueness of the expert opinions into account, intuitionistic fuzzy linguistics has been used in the research work. In this paper, we propose a two-stage calculation of the relative importance of the factors in the system based on their hierarchical positions and rank the factors accordingly. We have performed a case study on student performance assessment by taking up novel Indian high-school administrative factors' data collected by surveying the experts in this field. A comparative study has been conducted in terms of the correlation of the factor ranking achieved by the proposed method and conventional ISM method with that of standard outranking methods like TOPSIS, and VIKOR. Our proposed IHRP framework achieves an 85-95% correlation compared to a 50-60% correlation for the conventional ISM method. This proves the effectiveness of the proposed method in determining a better hierarchy than the conventional method, especially in dense systems.
翻訳日:2024-02-07 06:05:10 公開日:2024-02-03
# 巨額の開示:ChatGPTは投資家の情報を処理できるか?

Bloated Disclosures: Can ChatGPT Help Investors Process Information? ( http://arxiv.org/abs/2306.10224v3 )

ライセンス: Link先を確認
Alex Kim, Maximilian Muhn, Valeri Nikolaev(参考訳) ChatGPTのような生成AIツールは、投資家が情報を処理する方法を根本的に変えることができる。 株式市場を実験室として、複雑な企業開示を要約する上で、これらのツールの経済的有用性を検討する。 制約のない要約はオリジナルに比べて著しく短いが、情報内容は増幅されている。 ある文書が正(負)の感情を持つとき、その要約はより正(負)になる。 重要なことに、これらの要約は公開情報に対する株式市場の反応を説明するのにより効果的である。 これらの知見に動機づけられ,我々は情報の尺度であるbloatを提案する。 「肥大化した開示は、価格効率の低下や情報非対称性の上昇など、資本市場の悪影響と関連している。」 最後に、このモデルは、企業の(非)金融パフォーマンスを識別するターゲットサマリーの構築に有効であることを示す。 この結果から,情報処理に制約のある投資家に対して,生成的AIが多大な価値をもたらすことが示唆された。

Generative AI tools such as ChatGPT can fundamentally change the way investors process information. We probe the economic usefulness of these tools in summarizing complex corporate disclosures using the stock market as a laboratory. The unconstrained summaries are remarkably shorter compared to the originals, whereas their information content is amplified. When a document has a positive (negative) sentiment, its summary becomes more positive (negative). Importantly, the summaries are more effective at explaining stock market reactions to the disclosed information. Motivated by these findings, we propose a measure of information ``bloat." We show that bloated disclosure is associated with adverse capital market consequences, such as lower price efficiency and higher information asymmetry. Finally, we show that the model is effective at constructing targeted summaries that identify firms' (non-)financial performance. Collectively, our results indicate that generative AI adds considerable value for investors with information processing constraints.
翻訳日:2024-02-07 06:04:23 公開日:2024-02-03
# 大規模不均一グラフの長距離メタパス探索

Long-range Meta-path Search on Large-scale Heterogeneous Graphs ( http://arxiv.org/abs/2307.08430v4 )

ライセンス: Link先を確認
Chao Li, Zijie Guo, Qiuting He, Hao Xu and Kun He(参考訳) 長距離依存性は均質グラフで広く研究されているが、不均一グラフではよく研究されていない。 この研究ギャップに対処することは2つの大きな課題を示す。 第一は計算コストを軽減し、不均質な存在下で可能な限り効果的な情報を活用することに努めることである。 2つ目は、様々なグラフニューラルネットワークで発生するよく知られたオーバースムースな問題を克服することである。 そこで本研究では,異なるメタパスの重要性について検討し,Long-range Meta-path Search through Progressive Smpling (LMSPS) と呼ばれる異種グラフへの長距離依存性を利用するためのフレームワークを提案する。 具体的には、ターゲットノードタイプに関連する全てのメタパスを持つ検索空間を開発する。 プログレッシブサンプリングアルゴリズムを用いることで、LMSPSはホップに依存しない時間複雑さで探索空間を動的に縮小する。 LMSPSは、サンプリング評価戦略をガイダンスとして活用し、特殊かつ効果的なメタパス選択を行う。 その後、効果的なメタパスのみが再訓練に使われ、コストを削減し、余計な問題を克服する。 様々な異種データセットに対する大規模な実験により、LMSPSは効果的な長距離メタパスを発見し、最先端の状態を上回ります。 さらに、Open Graph Benchmarkで \texttt{ogbn-mag} のリーダーボードのトップ1にランクインしている。 私たちのコードはhttps://github.com/jhl-hust/ldmlpで利用可能です。

Utilizing long-range dependency, though extensively studied in homogeneous graphs, has not been well investigated on heterogeneous graphs. Addressing this research gap presents two major challenges. The first is to alleviate computational costs while endeavoring to leverage as much effective information as possible in the presence of heterogeneity. The second involves overcoming the well-known over-smoothing issue occurring in various graph neural networks. To this end, we investigate the importance of different meta-paths and introduce an automatic framework for utilizing long-range dependency on heterogeneous graphs, denoted as Long-range Meta-path Search through Progressive Sampling (LMSPS). Specifically, we develop a search space with all meta-paths related to the target node type. By employing a progressive sampling algorithm, LMSPS dynamically shrinks the search space with hop-independent time complexity. Utilizing a sampling evaluation strategy as the guidance, LMSPS conducts a specialized and effective meta-path selection. Subsequently, only effective meta-paths are employed for retraining to reduce costs and overcome the over-smoothing issue. Extensive experiments on various heterogeneous datasets demonstrate that LMSPS discovers effective long-range meta-paths and outperforms the state-of-the-art. Besides, it ranks top-1 on the leaderboards of \texttt{ogbn-mag} in Open Graph Benchmark. Our code is available at https://github.com/JHL-HUST/LDMLP.
翻訳日:2024-02-07 05:54:24 公開日:2024-02-03
# MorphPiece : 大規模言語モデルのための言語トケナイザ

MorphPiece : A Linguistic Tokenizer for Large Language Models ( http://arxiv.org/abs/2307.07262v2 )

ライセンス: Link先を確認
Haris Jabbar(参考訳) トークン化は現代のNLPパイプラインの重要な部分である。 しかし, 大規模言語モデルの代用トークンは, 言語的特徴を考慮せずに, テキストコーパスの統計的解析に基づいている。 基礎となるテキストの形態的セグメンテーションにもとづく言語的に動機付けられたトークン化スキームであるMorphPieceを提案する。 このトークン化器(MorphGPT)で訓練されたGPTスタイルの因果言語モデルは、OpenAI GPT-2モデルと比較して、様々な教師付きおよび教師なしのNLPタスクにおいて同等または優れたパフォーマンスを示す。 具体的には,言語モデリングタスクにおけるMorphGPTの評価,GLUE Benchmarkのゼロショット性能,さまざまなプロンプトテンプレートによるベンチマーク,教師付きおよび教師なしのパフォーマンスのための大規模テキスト埋め込みベンチマーク(MTEB),そして最後に,他の形態的トークン化スキーム(FLOTA, Hoffmann et al., 2022)を用いて,MorphPieceでトレーニングされたモデルが,ほぼ半分のトレーニングイテレーションでトレーニングされているにもかかわらず,ほとんどの評価においてGPT-2よりも優れていることを発見した。

Tokenization is a critical part of modern NLP pipelines. However, contemporary tokenizers for Large Language Models are based on statistical analysis of text corpora, without much consideration to the linguistic features. I propose a linguistically motivated tokenization scheme, MorphPiece, which is based partly on morphological segmentation of the underlying text. A GPT-style causal language model trained on this tokenizer (called MorphGPT) shows comparable or superior performance on a variety of supervised and unsupervised NLP tasks, compared to the OpenAI GPT-2 model. Specifically I evaluated MorphGPT on language modeling tasks, zero-shot performance on GLUE Benchmark with various prompt templates, massive text embedding benchmark (MTEB) for supervised and unsupervised performance, and lastly with another morphological tokenization scheme (FLOTA, Hoffmann et al., 2022) and find that the model trained on MorphPiece outperforms GPT-2 on most evaluations, at times with considerable margin, despite being trained for about half the training iterations.
翻訳日:2024-02-07 05:53:15 公開日:2024-02-03
# DRAGON:視覚言語接地による補助ナビゲーションのための対話型ロボット

DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual Language Grounding ( http://arxiv.org/abs/2307.06924v2 )

ライセンス: Link先を確認
Shuijing Liu, Aamir Hasan, Kaiwen Hong, Runxuan Wang, Peixin Chang, Zachary Mizrachi, Justin Lin, D. Livingston McPherson, Wendy A. Rogers, and Katherine Driggs-Campbell(参考訳) 視覚障害者(PwVI)は周囲の空間の理解とナビゲーションが困難である。 現在のwayfinding技術は、ナビゲーションのみにフォーカスするか、環境に関する限られたコミュニケーションを提供する。 近年の視覚的接地とセマンティックナビゲーションの進歩に触発されて,対話システムを利用した誘導ロボットDRAGONと,環境と自然言語を関連付ける能力を提案する。 ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。 対話の効果的な利用により、ロボットはユーザーの自由形式の記述を環境のランドマークに接地し、音声言語を介してユーザの意味情報を与えることができる。 我々は,日常的な室内環境において,目隠しされた参加者とユーザスタディを行う。 本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。 ビデオとコードはhttps://sites.google.com/view/dragon-wayfinding/homeで入手できる。

Persons with visual impairments (PwVI) have difficulties understanding and navigating spaces around them. Current wayfinding technologies either focus solely on navigation or provide limited communication about the environment. Motivated by recent advances in visual-language grounding and semantic navigation, we propose DRAGON, a guiding robot powered by a dialogue system and the ability to associate the environment with natural language. By understanding the commands from the user, DRAGON is able to guide the user to the desired landmarks on the map, describe the environment, and answer questions from visual observations. Through effective utilization of dialogue, the robot can ground the user's free-form descriptions to landmarks in the environment, and give the user semantic information through spoken language. We conduct a user study with blindfolded participants in an everyday indoor environment. Our results demonstrate that DRAGON is able to communicate with the user smoothly, provide a good guiding experience, and connect users with their surrounding environment in an intuitive manner. Videos and code are available at https://sites.google.com/view/dragon-wayfinding/home.
翻訳日:2024-02-07 05:52:48 公開日:2024-02-03
# specious sites: 大規模なニュース記事の拡散と揺れを追跡するサービス

Specious Sites: Tracking the Spread and Sway of Spurious News Stories at Scale ( http://arxiv.org/abs/2308.02068v3 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) 誤った情報、プロパガンダ、アウトライトはウェブ上で広まり、一部の物語は公衆の健康、選挙、個人の安全に危険な現実世界の影響をもたらす。 しかし、誤った情報の影響にもかかわらず、研究コミュニティはオンラインプラットフォーム全体のニュースナラティブを追跡するための自動化とプログラムによるアプローチをほとんど欠いている。 本研究では,信頼できないニュースサイト1,334件,大言語モデルMPNet,DP-Meansクラスタリングの日次スクラップを利用して,オンラインエコシステム内の物語を自動的に識別・追跡するシステムを提案する。 これら1,334のウェブサイト上で52,036の物語を特定し,2022年に広く普及した物語を記述し,物語を起源とし増幅する最も影響力のあるウェブサイトを特定する。 最後に,信頼できないニュースサイトから新たな物語を抽出し,事実確認者が誤情報により迅速に対処できるように,我々のシステムをいかに活用できるかを示す。 コードとデータはhttps://github.com/hanshanley/specious-sitesでリリースします。

Misinformation, propaganda, and outright lies proliferate on the web, with some narratives having dangerous real-world consequences on public health, elections, and individual safety. However, despite the impact of misinformation, the research community largely lacks automated and programmatic approaches for tracking news narratives across online platforms. In this work, utilizing daily scrapes of 1,334 unreliable news websites, the large-language model MPNet, and DP-Means clustering, we introduce a system to automatically identify and track the narratives spread within online ecosystems. Identifying 52,036 narratives on these 1,334 websites, we describe the most prevalent narratives spread in 2022 and identify the most influential websites that originate and amplify narratives. Finally, we show how our system can be utilized to detect new narratives originating from unreliable news websites and to aid fact-checkers in more quickly addressing misinformation. We release code and data at https://github.com/hanshanley/specious-sites.
翻訳日:2024-02-07 05:43:15 公開日:2024-02-03
# mlic++: 学習画像圧縮のための線形複雑性注意に基づくマルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Attention-based Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v7 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像圧縮の性能が向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。 しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。 この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。 さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。 これらの制約に対処するため,線形複雑度注意に基づくマルチ参照エントロピーモデル(MEM++)を提案する。 MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。 具体的には、潜在表現をまず複数のスライスに分割する。 特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。 性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。 さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。 予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。 MEM++に基づく画像圧縮モデルMLIC++を提案する。 大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。 コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Attention-based Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2024-02-07 05:42:00 公開日:2024-02-03
# 階層的距離構造エンコーディングによるグラフトランスの拡張

Enhancing Graph Transformers with Hierarchical Distance Structural Encoding ( http://arxiv.org/abs/2308.11129v2 )

ライセンス: Link先を確認
Yuankai Luo(参考訳) グラフトランスフォーマーは、意味のある注意点を導き出すために強い帰納バイアスを必要とする。 しかし、現在の手法は、分子、ソーシャルネットワーク、引用ネットワークなどの様々なグラフでよく見られる、より長い範囲、階層構造、あるいはコミュニティ構造を捉えるのに不足することが多い。 本稿では,グラフ内のノード距離をモデル化するための階層的距離構造符号化(HDSE)手法を提案する。 我々は既存のグラフ変換器の注意機構にHDSEをシームレスに統合する新しいフレームワークを導入し、他の位置符号化と同時適用を可能にした。 大規模グラフにhdseを用いたグラフトランスを適用すべく,線形複雑度を有する階層的グローバルアテンション機構を提案する。 理論上,最短経路距離におけるhdseの優位性を表現性と一般化の観点から証明する。 実験により,HDSEを用いたグラフトランスフォーマーはグラフ分類,7つのグラフレベルのデータセットの回帰,最大10億個のノードを含む12の大規模グラフのノード分類に優れていた。

Graph transformers need strong inductive biases to derive meaningful attention scores. Yet, current methods often fall short in capturing longer ranges, hierarchical structures, or community structures, which are common in various graphs such as molecules, social networks, and citation networks. This paper presents a Hierarchical Distance Structural Encoding (HDSE) method to model node distances in a graph, focusing on its multi-level, hierarchical nature. We introduce a novel framework to seamlessly integrate HDSE into the attention mechanism of existing graph transformers, allowing for simultaneous application with other positional encodings. To apply graph transformer with HDSE to large-scale graphs, we further propose a hierarchical global attention mechanism with linear complexity. We theoretically prove the superiority of HDSE over shortest path distances in terms of expressivity and generalization. Empirically, we demonstrate that graph transformers with HDSE excel in graph classification, regression on 7 graph-level datasets, and node classification on 12 large-scale graphs, including those with up to a billion nodes.
翻訳日:2024-02-07 05:29:09 公開日:2024-02-03
# ベイズ流ネットワーク

Bayesian Flow Networks ( http://arxiv.org/abs/2308.07037v5 )

ライセンス: Link先を確認
Alex Graves, Rupesh Kumar Srivastava, Timothy Atkinson, Faustino Gomez(参考訳) 本稿では,独立した分布の集合のパラメータを,ノイズデータサンプルに照らしてベイズ推論によって修正し,第2の相互依存分布を出力するニューラルネットワークに入力として渡す,新たな階層生成モデルであるベイズフローネットワーク(bfns)を提案する。 単純な事前および反復的に2つの分布を更新することから、拡散モデルの逆過程に類似した生成手順が得られるが、前方過程を必要としないという概念的には単純である。 離散時間および連続時間損失関数は、サンプル生成手順とともに、連続、離散化、離散データに対して導出される。 特に、離散データに対するネットワーク入力は確率単純度に基づいており、したがってネイティブに微分可能であり、勾配に基づくサンプルガイダンスや言語モデリングのような離散領域における数ステップ生成の道を開く。 損失関数はデータ圧縮を直接最適化し、ネットワークアーキテクチャに制限を課さない。 実験では,動的二項化MNISTとCIFAR-10を用いた画像モデリングにおいて,BFNは競合する対数類似度を実現し,テキスト8文字レベルの言語モデリングタスクにおいて,既知の離散拡散モデルよりも優れていた。

This paper introduces Bayesian Flow Networks (BFNs), a new class of generative model in which the parameters of a set of independent distributions are modified with Bayesian inference in the light of noisy data samples, then passed as input to a neural network that outputs a second, interdependent distribution. Starting from a simple prior and iteratively updating the two distributions yields a generative procedure similar to the reverse process of diffusion models; however it is conceptually simpler in that no forward process is required. Discrete and continuous-time loss functions are derived for continuous, discretised and discrete data, along with sample generation procedures. Notably, the network inputs for discrete data lie on the probability simplex, and are therefore natively differentiable, paving the way for gradient-based sample guidance and few-step generation in discrete domains such as language modelling. The loss function directly optimises data compression and places no restrictions on the network architecture. In our experiments BFNs achieve competitive log-likelihoods for image modelling on dynamically binarized MNIST and CIFAR-10, and outperform all known discrete diffusion models on the text8 character-level language modelling task.
翻訳日:2024-02-07 05:27:48 公開日:2024-02-03
# 人工知能と法律のためのトランスフォーマベースの言語モデルに秩序をもたらす

Bringing order into the realm of Transformer-based language models for artificial intelligence and law ( http://arxiv.org/abs/2308.05502v2 )

ライセンス: Link先を確認
Candida M. Greco, Andrea Tagarelli(参考訳) トランスフォーマーベースの言語モデル(TLM)は、自然言語処理と理解を必要とする問題やアプリケーションに対するディープラーニングベースのソリューションの開発を成功させる最先端技術として広く認識されている。 他のテキストドメインと同様に、TLMも、法律ドメインに関心を持つ多くのタスクに対して、AIアプローチの最先端を推し進めてきた。 約6年前に最初に提案されたTransformerモデルにもかかわらず、この技術は前例のない速度で急速に進歩し、BERTと関連するモデルは、法域においても主要な参照である。 本稿は、法的領域におけるAI駆動問題とタスクに対するTLMベースの手法に関する最初の体系的な概要を提供する。 主な目標は、この分野における研究の進歩を強調することであり、一方、トランスフォーマーが法的プロセスをサポートするaiの成功にどのように貢献したのか、他方では、さらなる研究開発に現在の制限と機会は何があるのかを理解することである。

Transformer-based language models (TLMs) have widely been recognized to be a cutting-edge technology for the successful development of deep-learning-based solutions to problems and applications that require natural language processing and understanding. Like for other textual domains, TLMs have indeed pushed the state-of-the-art of AI approaches for many tasks of interest in the legal domain. Despite the first Transformer model being proposed about six years ago, there has been a rapid progress of this technology at an unprecedented rate, whereby BERT and related models represent a major reference, also in the legal domain. This article provides the first systematic overview of TLM-based methods for AI-driven problems and tasks in the legal sphere. A major goal is to highlight research advances in this field so as to understand, on the one hand, how the Transformers have contributed to the success of AI in supporting legal processes, and on the other hand, what are the current limitations and opportunities for further research development.
翻訳日:2024-02-07 05:27:06 公開日:2024-02-03
# 言語モデルを用いた教師なしコントラスト一貫性ランキング

Unsupervised Contrast-Consistent Ranking with Language Models ( http://arxiv.org/abs/2309.06991v2 )

ライセンス: Link先を確認
Niklas Stoehr, Pengxiang Cheng, Jing Wang, Daniel Preotiuc-Pietro, Rajarshi Bhowmik(参考訳) 言語モデルはランキングベースの知識を含み、コンテキスト内ランキングタスクの強力な解法である。 例えば、国家の規模による注文に関するパラメトリック知識を持つか、あるいは感情による製品レビューをランク付けすることができる。 言語モデルのランキング知識を引き出すために,ペアワイズ,ポイントワイズ,リストワイズの各手法を比較した。 しかし,注意深いキャリブレーションと制約付きデコードでは,プロンプトベースの手法が必ずしもランキングに一貫性を持つとは限らない。 これは、Contrast-Consistent Search (CCS)と呼ばれる教師なしの探索手法にインスパイアされた代替手法を探る動機となっている。 言語モデルのステートメントの表現とその否定は、複数のステートメントを一貫して横断する対照的な真偽極にマッピングされなければならない。 同様の制約は、すべての項目が一貫性、ペアワイズ、リストワイズの比較によって関連づけられるランキングタスクに適用できると仮定する。 この目的のために,最大マージン損失,三重項損失,順序回帰目標といった既存のランキング手法を適応させることにより,2次ccs法をコントラスト一貫性ランキング(ccr)へ拡張する。 異なるモデルとデータセット間で、我々の結果は、CCRの探索がプロンプトと同等または少なくとも同等に、より良く動作することを確認した。

Language models contain ranking-based knowledge and are powerful solvers of in-context ranking tasks. For instance, they may have parametric knowledge about the ordering of countries by size or may be able to rank product reviews by sentiment. We compare pairwise, pointwise and listwise prompting techniques to elicit a language model's ranking knowledge. However, we find that even with careful calibration and constrained decoding, prompting-based techniques may not always be self-consistent in the rankings they produce. This motivates us to explore an alternative approach that is inspired by an unsupervised probing method called Contrast-Consistent Search (CCS). The idea is to train a probe guided by a logical constraint: a language model's representation of a statement and its negation must be mapped to contrastive true-false poles consistently across multiple statements. We hypothesize that similar constraints apply to ranking tasks where all items are related via consistent, pairwise or listwise comparisons. To this end, we extend the binary CCS method to Contrast-Consistent Ranking (CCR) by adapting existing ranking methods such as the Max-Margin Loss, Triplet Loss and an Ordinal Regression objective. Across different models and datasets, our results confirm that CCR probing performs better or, at least, on a par with prompting.
翻訳日:2024-02-07 05:20:29 公開日:2024-02-03
# CCSPNet-Joint:極端条件下での交通信号検出のための効率的な共同訓練法

CCSPNet-Joint: Efficient Joint Training Method for Traffic Sign Detection Under Extreme Conditions ( http://arxiv.org/abs/2309.06902v4 )

ライセンス: Link先を確認
Haoqin Hong, Yue Zhou, Xiangyu Shu and Xiaofang Hu(参考訳) 交通標識検出は知的運転における重要な研究方向である。 残念ながら、既存の手法は、霧や雨、動きのぼやけといった極端な状況を見落としていることが多い。 また,画像のデノイジングと物体検出モデルに対するエンドツーエンドのトレーニング戦略では,モデル間情報を有効に活用できない。 これらの課題に対処するために,画像の静的・動的特徴を効果的に活用し,より高速な推論速度を実現し,より強力な特徴拡張機能を提供する,Contextual TransformerとCNNに基づく効率的な特徴抽出モジュールであるCCSPNetを提案する。 さらに,オブジェクト検出と画像復号化タスクの相関性を確立し,データ効率と一般化を改善するための共同トレーニングモデルCCSPNet-Jointを提案する。 最後に、我々のアプローチを検証するために、極端なシナリオでトラフィックシグネチャ検出のためのCCTSDB-AUGデータセットを作成します。 CCSPNetは、極端な条件下での交通標識検出において、最先端の性能を達成している。 CCSPNet-Jointはエンドツーエンドの手法と比較して精度が5.32%向上し、mAP@.5では18.09%向上した。

Traffic sign detection is an important research direction in intelligent driving. Unfortunately, existing methods often overlook extreme conditions such as fog, rain, and motion blur. Moreover, the end-to-end training strategy for image denoising and object detection models fails to utilize inter-model information effectively. To address these issues, we propose CCSPNet, an efficient feature extraction module based on Contextual Transformer and CNN, capable of effectively utilizing the static and dynamic features of images, achieving faster inference speed and providing stronger feature enhancement capabilities. Furthermore, we establish the correlation between object detection and image denoising tasks and propose a joint training model, CCSPNet-Joint, to improve data efficiency and generalization. Finally, to validate our approach, we create the CCTSDB-AUG dataset for traffic sign detection in extreme scenarios. Extensive experiments have shown that CCSPNet achieves state-of-the-art performance in traffic sign detection under extreme conditions. Compared to end-to-end methods, CCSPNet-Joint achieves a 5.32% improvement in precision and an 18.09% improvement in mAP@.5.
翻訳日:2024-02-07 05:20:05 公開日:2024-02-03
# 競争選択による因果戦略学習

Causal Strategic Learning with Competitive Selection ( http://arxiv.org/abs/2308.16262v3 )

ライセンス: Link先を確認
Kiet Q. H. Vo, Muneeb Aadil, Siu Lun Chau, Krikamol Muandet(参考訳) 複数の意思決定者による因果戦略学習におけるエージェント選択の問題を調査し,それに伴う2つの課題に対処した。 まず, 先行研究の多くは, 評価によらず静的なエージェントプールの研究に焦点が当てられているが, エージェントが評価されるだけでなく, 選択される際の選択手順の影響を考察する。 各意思決定者が自身の効用を最大化してエージェントを一方的に選択した場合、最適な選択規則は、最適なエージェントを選択し、エージェントの改善を最大化するためのインセンティブを提供することの間のトレードオフであることを示す。 さらに、この最適選択規則は、エージェントの結果の誤った予測に依存する。 したがって、意思決定者の最適選択規則がエージェントの結果の劣化を招き、エージェントの選択確率を不当に低下させることのない条件について検討する。 この目的のために, 最適選択規則の分析形式と, エージェントの行動に関する一定の仮定の下で, 観測データから因果パラメータを抽出する機構を提案する。 第二に、複数の意思決定者がいる場合、選択規則間の干渉は、基礎となる因果パラメータを推定する別のバイアス源をもたらす。 この問題に対処するために,我々は,意思決定者が一体となって真の因果パラメータを回復しなければならない協調プロトコルを提供する。 最後に,シミュレーション研究により理論的結果を補完する。 本研究は,ゲームの効果を緩和するための戦略としての因果モデリングの重要性を強調するだけでなく,それを実現するために善意のレギュレータが必要である。

We study the problem of agent selection in causal strategic learning under multiple decision makers and address two key challenges that come with it. Firstly, while much of prior work focuses on studying a fixed pool of agents that remains static regardless of their evaluations, we consider the impact of selection procedure by which agents are not only evaluated, but also selected. When each decision maker unilaterally selects agents by maximising their own utility, we show that the optimal selection rule is a trade-off between selecting the best agents and providing incentives to maximise the agents' improvement. Furthermore, this optimal selection rule relies on incorrect predictions of agents' outcomes. Hence, we study the conditions under which a decision maker's optimal selection rule will not lead to deterioration of agents' outcome nor cause unjust reduction in agents' selection chance. To that end, we provide an analytical form of the optimal selection rule and a mechanism to retrieve the causal parameters from observational data, under certain assumptions on agents' behaviour. Secondly, when there are multiple decision makers, the interference between selection rules introduces another source of biases in estimating the underlying causal parameters. To address this problem, we provide a cooperative protocol which all decision makers must collectively adopt to recover the true causal parameters. Lastly, we complement our theoretical results with simulation studies. Our results highlight not only the importance of causal modeling as a strategy to mitigate the effect of gaming, as suggested by previous work, but also the need of a benevolent regulator to enable it.
翻訳日:2024-02-07 05:16:36 公開日:2024-02-03
# 局所的および世界的傾向ベイズ指数平滑化モデル

Local and Global Trend Bayesian Exponential Smoothing Models ( http://arxiv.org/abs/2309.13950v2 )

ライセンス: Link先を確認
Slawek Smyl, Christoph Bergmeir, Alexander Dokumentov, Xueying Long, Erwin Wibowo, Daniel Schmidt(参考訳) 本稿では,加法的および乗法的指数的平滑化モデルの一般化と見なせる季節的・非季節的時系列モデルのファミリーを,指数関数よりも高速に成長するモデル系列に記述する。 彼らの発展は、急速な成長と揮発性の時系列によって動機づけられている。 特に,我々のモデルでは,加法から乗法へスムーズに変化できるグローバルトレンドと線形局所トレンドが組み合わさっている。 我々のモデルでは、使用時の季節性は乗法的であり、エラーは常に加法的であるが、ヘテロスセダティックであり、パラメータシグマによって成長することができる。 標準指数的平滑化モデルよりも複雑で柔軟であるこれらのモデルに正確に適合するために最先端のベイズフィッティング技術を利用する。 m3コンペティションデータセットに適用すると、我々のモデルはコンペティションにおける最良のアルゴリズムや他のベンチマークよりも優れており、このデータセットにおけるシリーズごとの不平等なメソッドの最高の結果を得ることができます。 本手法のオープンソースソフトウェアパッケージが利用可能である。

This paper describes a family of seasonal and non-seasonal time series models that can be viewed as generalisations of additive and multiplicative exponential smoothing models, to model series that grow faster than linear but slower than exponential. Their development is motivated by fast-growing, volatile time series. In particular, our models have a global trend that can smoothly change from additive to multiplicative, and is combined with a linear local trend. Seasonality when used is multiplicative in our models, and the error is always additive but is heteroscedastic and can grow through a parameter sigma. We leverage state-of-the-art Bayesian fitting techniques to accurately fit these models that are more complex and flexible than standard exponential smoothing models. When applied to the M3 competition data set, our models outperform the best algorithms in the competition as well as other benchmarks, thus achieving to the best of our knowledge the best results of per-series univariate methods on this dataset in the literature. An open-source software package of our method is available.
翻訳日:2024-02-07 05:08:15 公開日:2024-02-03
# 画像間翻訳のための深層強化学習

Deep Reinforcement Learning for Image-to-Image Translation ( http://arxiv.org/abs/2309.13672v3 )

ライセンス: Link先を確認
Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Xin Li, Siwei Lyu(参考訳) 既存の画像変換(I2IT)手法のほとんどは、ディープラーニング(DL)モデルの単一実行時に画像を生成する。 しかし、そのような単一ステップモデルの設計は常に困難であり、大量のパラメータが必要であり、すぐに悪いグローバルな最小値に陥り、過度に適合する。 本稿では,深部強化学習(DRL)による段階的意思決定問題としてI2ITを再構成し,RLに基づくI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。 RL-I2ITフレームワークの主な特徴は、モノリシックな学習プロセスを軽量なモデルで小さなステップに分解し、ターゲット画像に徐々にソースイメージを変換することである。 従来のrlフレームワークでは,高次元連続状態や動作空間を扱うことが困難であると考えると,従来の画像よりも低次元で,俳優が扱いやすい高次元アクションを生成することができる標準アクター・クリティックモデルに対して,新たな概念プランによるメタポリシーを導入する。 RL-I2ITフレームワークでは、トレーニングプロセスを安定させ、対応するタスクの性能を向上させるために、タスク固有の補助学習戦略も採用している。 複数のi2itタスクにおける実験により,高次元連続動作空間問題に対する提案手法の有効性とロバスト性が示された。 RL-I2ITフレームワークの実装はhttps://github.com/Algolzw/SPAC-Deformable-Registrationで公開しています。

Most existing Image-to-Image Translation (I2IT) methods generate images in a single run of a deep learning (DL) model. However, designing such a single-step model is always challenging, requiring a huge number of parameters and easily falling into bad global minimums and overfitting. In this work, we reformulate I2IT as a step-wise decision-making problem via deep reinforcement learning (DRL) and propose a novel framework that performs RL-based I2IT (RL-I2IT). The key feature in the RL-I2IT framework is to decompose a monolithic learning process into small steps with a lightweight model to progressively transform a source image successively to a target image. Considering that it is challenging to handle high dimensional continuous state and action spaces in the conventional RL framework, we introduce meta policy with a new concept Plan to the standard Actor-Critic model, which is of a lower dimension than the original image and can facilitate the actor to generate a tractable high dimensional action. In the RL-I2IT framework, we also employ a task-specific auxiliary learning strategy to stabilize the training process and improve the performance of the corresponding task. Experiments on several I2IT tasks demonstrate the effectiveness and robustness of the proposed method when facing high-dimensional continuous action space problems. Our implementation of the RL-I2IT framework is available at https://github.com/Algolzw/SPAC-Deformable-Registration.
翻訳日:2024-02-07 05:07:55 公開日:2024-02-03
# Talk2Care: 大規模言語モデルによる非同期患者プロバイダ通信の実現

Talk2Care: Facilitating Asynchronous Patient-Provider Communication with Large-Language-Model ( http://arxiv.org/abs/2309.09357v5 )

ライセンス: Link先を確認
Ziqi Yang, Xuhai Xu, Bingsheng Yao, Shao Zhang, Ethan Rogers, Stephen Intille, Nawar Shara, Guodong Gordon Gao, Dakuo Wang(参考訳) 在宅高齢者や医療提供者を支援するための遠隔医療アプリケーションが多いにもかかわらず、基本的なメッセージングや電話は依然として最も一般的なコミュニケーション方法であり、可用性や情報損失、プロセスの非効率に苦しんでいる。 患者と提供者のコミュニケーションを促進する有望な解決策の1つは、強力な自然会話と要約機能を備えた大規模言語モデル(llm)を活用することである。 しかし、通信におけるllmsの役割の理解は限られている。 まず,高齢者 (N=10) と医療提供者 (N=9) の2つのインタビュー研究を行い, 患者支援非同期コミュニケーションにおけるLSMの必要性と機会について検討した。 1)高齢者向けに音声アシスタント(vas)の利便性とアクセシビリティを活用し,効果的な情報収集のためにllmを利用したvaインターフェースを構築した。 2)健康提供者向けに,高齢者のvaとの会話に基づく重要な健康情報を要約し提示するための,llmベースのダッシュボードを構築した。 さらに,高齢者と提供者との2つのユーザスタディを行い,システムのユーザビリティを評価した。 その結果,Talk2Careはコミュニケーションプロセスを促進し,高齢者の健康情報を充実させ,提供者の努力と時間を著しく節約できることがわかった。 我々は,医療と対人コミュニケーションの交点におけるllmsの能力の探索として,我々の研究を期待する。

Despite the plethora of telehealth applications to assist home-based older adults and healthcare providers, basic messaging and phone calls are still the most common communication methods, which suffer from limited availability, information loss, and process inefficiencies. One promising solution to facilitate patient-provider communication is to leverage large language models (LLMs) with their powerful natural conversation and summarization capability. However, there is a limited understanding of LLMs' role during the communication. We first conducted two interview studies with both older adults (N=10) and healthcare providers (N=9) to understand their needs and opportunities for LLMs in patient-provider asynchronous communication. Based on the insights, we built an LLM-powered communication system, Talk2Care, and designed interactive components for both groups: (1) For older adults, we leveraged the convenience and accessibility of voice assistants (VAs) and built an LLM-powered VA interface for effective information collection. (2) For health providers, we built an LLM-based dashboard to summarize and present important health information based on older adults' conversations with the VA. We further conducted two user studies with older adults and providers to evaluate the usability of the system. The results showed that Talk2Care could facilitate the communication process, enrich the health information collected from older adults, and considerably save providers' efforts and time. We envision our work as an initial exploration of LLMs' capability in the intersection of healthcare and interpersonal communication.
翻訳日:2024-02-07 05:05:15 公開日:2024-02-03
# 名前付きエンティティ認識に対するコンテキストアウェアな敵対的攻撃

Context-aware Adversarial Attack on Named Entity Recognition ( http://arxiv.org/abs/2309.08999v2 )

ライセンス: Link先を確認
Shuguang Chen, Leonardo Neves, and Thamar Solorio(参考訳) 近年,大規模事前学習型言語モデル (PLM) は,多くの自然言語処理ベンチマークにおいて顕著な性能を発揮している。 彼らの成功にもかかわらず、以前の研究では、PLMは敵の例からの攻撃に弱いことが示されている。 本研究では,モデルが持つロバスト性を調べるために,名前付きエンティティ認識タスクとコンテキスト認識型敵攻撃手法について検討する。 具体的には,エンティティ認識のための最も有意義な単語の摂動を行い,敵の例を作成し,異なる候補の置換法を調査して,自然かつ妥当な敵の例を生成する。 実験と分析により,本手法は,強いベースラインよりも誤った予測にモデルを欺くのに有効であることが示された。

In recent years, large pre-trained language models (PLMs) have achieved remarkable performance on many natural language processing benchmarks. Despite their success, prior studies have shown that PLMs are vulnerable to attacks from adversarial examples. In this work, we focus on the named entity recognition task and study context-aware adversarial attack methods to examine the model's robustness. Specifically, we propose perturbing the most informative words for recognizing entities to create adversarial examples and investigate different candidate replacement methods to generate natural and plausible adversarial examples. Experiments and analyses show that our methods are more effective in deceiving the model into making wrong predictions than strong baselines.
翻訳日:2024-02-07 05:04:49 公開日:2024-02-03
# 画像テキスト補助タスクの活用によるソーシャルメディア投稿のマルチモーダル分類の改善

Improving Multimodal Classification of Social Media Posts by Leveraging Image-Text Auxiliary Tasks ( http://arxiv.org/abs/2309.07794v2 )

ライセンス: Link先を確認
Danae S\'anchez Villegas, Daniel Preo\c{t}iuc-Pietro, Nikolaos Aletras(参考訳) ソーシャルメディア投稿からのマルチモーダル情報を効果的に活用することは、感情分析、皮肉検出、ヘイトスピーチ分類などの下流タスクに不可欠である。 テキストと画像の共同モデリングは、クロスモーダルセマンティクスが隠されているか、画像とテキストの関係が弱いため、難しい。 しかし、ソーシャルメディア投稿のマルチモーダル分類に関する先行研究は、これらの課題にまだ対処していない。 本稿では,マルチモーダルモデルの微調整において,メインタスクと協調して2つの補助損失を併用することの有効性について広範囲に検討する。 まず、画像テキストコントラスト(itc)は、ポスト内の画像テキスト表現間の距離を最小化するために設計され、画像がポストの意味を伝える上で重要な役割を果たすポスト間のギャップを効果的にブリッジする。 第2に,イメージテキストマッチング(image-text matching, itm)は,画像とテキスト間の意味的関係を理解するモデルの能力を高め,曖昧あるいはゆるやかな関係性を扱う能力を向上させる。 これらの目的を5つのソーシャルメディアデータセットにまたがる5つのマルチモーダルモデルと組み合わせ,最大2.6点f1の一貫した改善を示す。 包括的分析は、各補助課題が最も効果的である特定のシナリオを示す。

Effectively leveraging multimodal information from social media posts is essential to various downstream tasks such as sentiment analysis, sarcasm detection or hate speech classification. Jointly modeling text and images is challenging because cross-modal semantics might be hidden or the relation between image and text is weak. However, prior work on multimodal classification of social media posts has not yet addressed these challenges. In this work, we present an extensive study on the effectiveness of using two auxiliary losses jointly with the main task during fine-tuning multimodal models. First, Image-Text Contrastive (ITC) is designed to minimize the distance between image-text representations within a post, thereby effectively bridging the gap between posts where the image plays an important role in conveying the post's meaning. Second, Image-Text Matching (ITM) enhances the model's ability to understand the semantic relationship between images and text, thus improving its capacity to handle ambiguous or loosely related modalities. We combine these objectives with five multimodal models across five diverse social media datasets, demonstrating consistent improvements of up to 2.6 points F1. Our comprehensive analysis shows the specific scenarios where each auxiliary task is most effective.
翻訳日:2024-02-07 05:03:55 公開日:2024-02-03
# Memoria: ヒューマンインスパイアされたメモリアーキテクチャによる偽造問題の解決

Memoria: Resolving Fateful Forgetting Problem through Human-Inspired Memory Architecture ( http://arxiv.org/abs/2310.03052v2 )

ライセンス: Link先を確認
Sangjun Park and JinYeong Bak(参考訳) トランスフォーマーベースのモデルは、様々な分野での有効性にもかかわらず、長いシーケンス入力を処理する際に、固定コンテキスト長の構造的制限に直面している。 様々な外部メモリ技術が導入されたが、ほとんどの以前の技術では、重要なメモリでさえ十分な時間ステップの後に必然的に忘れ去られてしまう運命の忘れが避けられていない。 人工ニューラルネットワークのための記憶システムであるmemoriaを設計し,人間からインスピレーションを得て,記憶に関する様々な神経科学的・心理学的理論を適用した。 実験では,従来の手法を上回って,ソートや言語モデリングなどのタスクにおける記憶の有効性を実証した。

Transformer-based models still face the structural limitation of fixed context length in processing long sequence input despite their effectiveness in various fields. While various external memory techniques were introduced, most previous techniques fail to avoid fateful forgetting, where even the most important memories are inevitably forgotten after a sufficient number of time steps. We designed Memoria, a memory system for artificial neural networks, drawing inspiration from humans and applying various neuroscientific and psychological theories related to memory. Experimentally, we demonstrated the effectiveness of Memoria in tasks such as sorting and language modeling, surpassing conventional techniques.
翻訳日:2024-02-07 04:56:07 公開日:2024-02-03
# 緩和群畳み込みによる物理系の対称性破壊の発見

Discovering Symmetry Breaking in Physical Systems with Relaxed Group Convolution ( http://arxiv.org/abs/2310.02299v5 )

ライセンス: Link先を確認
Rui Wang, Elyssa Hofgard, Han Gao, Robin Walters, Tess E.Smidt(参考訳) 対称性の破れのモデル化は、微視的粒子相互作用から流体力学や宇宙構造のような巨視的な現象まで、物理系の挙動や性質の基本的な変化を理解するのに不可欠である。 したがって、非対称性の源を特定することは物理系を理解するための重要なツールである。 本稿では,リラックスした群畳み込みを用いたデータの非対称性の学習に着目する。 このフレキシブルな畳み込み法は、データと整合した最も高いレベルの同値性を維持し、様々な物理系の微妙な対称性を破る要因を発見できるという理論的および実証的な証拠を提供する。 結晶構造の相転移,乱流の等方性と均質性破壊,振り子系の時間反転対称性破壊など,様々な物理系において解釈可能かつ物理的に意味のある様々な対称性破壊因子を明らかにするために,緩和群畳み込み構造を用いる。

Modeling symmetry breaking is essential for understanding the fundamental changes in the behaviors and properties of physical systems, from microscopic particle interactions to macroscopic phenomena like fluid dynamics and cosmic structures. Thus, identifying sources of asymmetry is an important tool for understanding physical systems. In this paper, we focus on learning asymmetries of data using relaxed group convolutions. We provide both theoretical and empirical evidence that this flexible convolution technique allows the model to maintain the highest level of equivariance that is consistent with data and discover the subtle symmetry-breaking factors in various physical systems. We employ various relaxed group convolution architectures to uncover various symmetry-breaking factors that are interpretable and physically meaningful in different physical systems, including the phase transition of crystal structure, the isotropy and homogeneity breaking in turbulent flow, and the time-reversal symmetry breaking in pendulum systems.
翻訳日:2024-02-07 04:54:55 公開日:2024-02-03
# BYOM: 独自のマルチタスクモデルを無償で開発

BYOM: Building Your Own Multi-Task Model For Free ( http://arxiv.org/abs/2310.01886v3 )

ライセンス: Link先を確認
Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and Zhenguo Li and James T. Kwok(参考訳) 近年,タスク固有の微調整モデルからマルチタスクモデルを構築するためのマージ手法が提案されている。 しかし、既存の手法は複数のタスク固有のモデルを使用する場合に比べて性能が大幅に低下する。 本稿では,統合モデルにタスク固有の知識を注入し,BYOM-FFTとBYOM-LoRAの2つのパラメータ効率のアプローチを設計する。 BYOM-FFTは完全微調整モデル、BYOM-LoRAはLoRA微調整モデルである。 どちらの手法もデータフリーで計算効率が良い。 コンピュータビジョンと自然言語処理タスクに関する大規模な実験により,提案手法は既存のマージ手法よりも大きなマージ性能を示した。 さらに、BYOM-FFTは汎用的であり、既存のマージ手法に統合してパフォーマンスをさらに向上することができる。

Recently, various merging methods have been proposed to build a multi-task model from task-specific finetuned models without retraining. However, existing methods suffer from a large performance deterioration compared to using multiple task-specific models. In this paper, we propose to inject task-specific knowledge into the merged model and design two parameter-efficient approaches (BYOM-FFT and BYOM-LoRA) to Build Your Own Multi-task model. BYOM-FFT is for merging fully finetuned models, while BYOM-LoRA is for LoRA-finetuned models. Both methods are data-free and computation-efficient. Extensive experiments on computer vision and natural language processing tasks show that the proposed BYOM methods outperform existing merging methods by a large margin. Moreover, BYOM-FFT is general and can be integrated into existing merging methods to further boost performance.
翻訳日:2024-02-07 04:53:43 公開日:2024-02-03
# 組合せ最適化のための連続緩和制御

Controlling Continuous Relaxation for Combinatorial Optimization ( http://arxiv.org/abs/2309.16965v2 )

ライセンス: Link先を確認
Yuma Ichikawa(参考訳) 機械学習技術の発展により、CO問題に対する教師なし学習(UL)ベースの解決器が最近提案されている。 これらの解法は、CO目標を直接最適化することで解を出力するニューラルネットワークを訓練する。 ULベースの解法は従来の方法よりもいくつかの利点がある。 しかし、様々な研究により、これらの解法は複雑なCO問題に対する欲求的アルゴリズムに比べて性能が低いことが示されている。 さらに、これらの解法では連続緩和戦略が採用されており、学習後に連続空間から元の離散空間への丸めが必要となり、結果の堅牢性が損なわれる。 これらの問題に対処するため,我々はCRA(Continuous relaxation annealing)戦略を提案する。 CRAは、緩和された変数の連続性と離散性を制御し、局所最適性を排除するためのペナルティ項を導入する。 さらに、craはペナルティ項のアニーリングプロセスを実装し、最初に連続解を優先順位付けし、リラックスした変数がほぼ離散化するまで徐々に離散解へと移行し、人工的な丸みを取り除く。 実験の結果、CRAはULベースの解法を著しく向上させ、複雑なCO問題に対して既存のULベースの解法とグリージーアルゴリズムの両方より優れていることが示された。

Motivated by developments in machine learning technologies, unsupervised learning (UL)-based solvers for CO problems have recently been proposed. These solvers train a neural network that outputs a solution by optimizing the CO objective directly. UL-based solvers have several advantages over traditional methods. However, various studies have shown that these solvers underperform compared to greedy algorithms for complex CO problems. In addition, these solvers employ a continuous relaxation strategy; thus, post-learning rounding from the continuous space back to the original discrete space is required, undermining the robustness of the results. To address these problems, we propose the continuous relaxation annealing (CRA) strategy. The CRA introduces a penalty term to control the continuity and discreteness of the relaxed variables and eliminate local optima. In addition, the CRA implements an annealing process for the penalty term that initially prioritizes continuous solutions and progressively transitions towards discreet solutions until the relaxed variables become nearly discrete, eliminating the artificial rounding. Experimental results demonstrate that the CRA significantly enhances the UL-based solvers, outperforming both existing UL-based solvers and greedy algorithms for complex CO problems.
翻訳日:2024-02-07 04:52:27 公開日:2024-02-03
# 2層ニューラルネットワークにおける1ステップの非線形特徴学習の一理論

A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks ( http://arxiv.org/abs/2310.07891v2 )

ライセンス: Link先を確認
Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban(参考訳) 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つと考えられている。 特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配降下の1ステップと第2層の尾根回帰が特徴学習につながることが知られている。 しかし、一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報しか持たず、非線形成分の学習は不可能である。 サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。 さらに,更新されたニューラルネットワークの大規模かつ大規模サンプルトレーニングとテストエラーが,これらのスパイクによって完全に特徴付けられることを証明した。 トレーニングとテストエラーの改善を正確に分析することで、これらの非線形機能は学習を向上できることを実証する。

Feature learning is thought to be one of the fundamental reasons for the success of deep neural networks. It is rigorously known that in two-layer fully-connected neural networks under certain conditions, one step of gradient descent on the first layer followed by ridge regression on the second layer can lead to feature learning; characterized by the appearance of a separated rank-one component -- spike -- in the spectrum of the feature matrix. However, with a constant gradient descent step size, this spike only carries information from the linear component of the target function and therefore learning non-linear components is impossible. We show that with a learning rate that grows with the sample size, such training in fact introduces multiple rank-one components, each corresponding to a specific polynomial feature. We further prove that the limiting large-dimensional and large sample training and test errors of the updated neural networks are fully characterized by these spikes. By precisely analyzing the improvement in the training and test errors, we demonstrate that these non-linear features can enhance learning.
翻訳日:2024-02-07 04:43:35 公開日:2024-02-03
# 認識を表現した解釈可能なセミオティックスネットワーク

Interpretable Semiotics Networks Representing Awareness ( http://arxiv.org/abs/2310.05212v2 )

ライセンス: Link先を確認
David Kupeev and Eyal Nitcany(参考訳) 人間は物体を毎日知覚し、様々なチャンネルを使って知覚を伝える。 本稿では,物体の知覚とその表現を追跡・シミュレートする計算モデルについて述べる。 内部表現("observed")と"seen"("seen")の2つの重要な要素を記述し、親しみやすいコンピュータビジョンの概念(エンコーディングとデコード)に関連付ける。 これらの要素が結合してセミオティックスネットワークを形成し、物体知覚と人間のコミュニケーションの認識をシミュレートする。 現在、ほとんどのニューラルネットワークは解釈できない。 一方、私たちのモデルは、この制限を克服します。 実験はモデルの可視性を実証する。 人による物体知覚モデルにより,ネットワークによる物体知覚を定義することができる。 本稿では,ベースライン分類器と付加層を含む新たなネットワークを構築することにより,画像ベースライン分類器の例を示す。 この層はネットワーク全体に「知覚」された画像を生成し、知覚化された画像分類器に変換する。 ネットワーク内では,アセンブルやランダム化時の分類タスクにおいて,内部画像表現がより効率的になる。 本実験では,MNISTトレーニングデータベースのベースライン分類器の性能を,制限された画像数で比較した。 我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。

Humans perceive objects daily and communicate their perceptions using various channels. Here, we describe a computational model that tracks and simulates objects' perception and their representations as they are conveyed in communication. We describe two key components of our internal representation ("observed" and "seen") and relate them to familiar computer vision notions (encoding and decoding). These elements are joined together to form semiotics networks, which simulate awareness in object perception and human communication. Nowadays, most neural networks are uninterpretable. On the other hand, our model overcomes this limitation. The experiments demonstrates the visibility of the model. Our model of object perception by a person allows us to define object perception by a network. We demonstrate this with an example of an image baseline classifier by constructing a new network that includes the baseline classifier and an additional layer. This layer produces the images "perceived" by the entire network, transforming it into a perceptualized image classifier. Within our network, the internal image representations become more efficient for classification tasks when they are assembled and randomized. In our experiments, the perceptualized network outperformed the baseline classifier on MNIST training databases consisting of a restricted number of images. Our model is not limited to persons and can be applied to any system featuring a loop involving the processing from "internal" to "external" representations.
翻訳日:2024-02-07 04:41:02 公開日:2024-02-03
# 敵の例は本当の特徴ではない

Adversarial Examples Are Not Real Features ( http://arxiv.org/abs/2310.18936v3 )

ライセンス: Link先を確認
Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang(参考訳) 敵対的な例の存在は長年の謎であり、多くの関心を惹きつけてきた。 citet{ilyas2019adversarial} のよく知られた理論は、敵対的な例から非破壊的特徴を抽出できることを示し、これらの特徴だけで分類に有用であることを示し、データの観点から敵対的脆弱性を説明する。 しかし、非破壊的な特徴は主に人間にとってのノイズの特徴であるため、この説明はかなり直感的ではない。 本稿では,複数の学習パラダイムを取り入れた理論を,より広い文脈から再検討する。 特に,教師付き学習における有用性とは裏腹に,コントラスト学習やマスク画像モデリング,拡散モデルなど,他の自己教師付き学習パラダイムに移行する際には,非破壊的特徴が有用性に欠けることがわかった。 非ロバスト機能は、これらのパラダイム間の優れた転送可能性を楽しむロバストあるいは自然な機能ほど役に立たない。 一方、ロバスト性については、ロバストな特徴を持つ自然に訓練されたエンコーダがAutoAttackではほとんど損なわれていないことも示している。 我々のパラダイム横断試験は、非破壊機能は実際には有用ではなく、パラダイム的なショートカットに似ており、堅牢な機能だけで信頼性の高いモデルロバスト性を達成するには不十分であることを示している。 コードは \url{https://github.com/PKU-ML/AdvNotRealFeatures} で入手できる。

The existence of adversarial examples has been a mystery for years and attracted much interest. A well-known theory by \citet{ilyas2019adversarial} explains adversarial vulnerability from a data perspective by showing that one can extract non-robust features from adversarial examples and these features alone are useful for classification. However, the explanation remains quite counter-intuitive since non-robust features are mostly noise features to humans. In this paper, we re-examine the theory from a larger context by incorporating multiple learning paradigms. Notably, we find that contrary to their good usefulness under supervised learning, non-robust features attain poor usefulness when transferred to other self-supervised learning paradigms, such as contrastive learning, masked image modeling, and diffusion models. It reveals that non-robust features are not really as useful as robust or natural features that enjoy good transferability between these paradigms. Meanwhile, for robustness, we also show that naturally trained encoders from robust features are largely non-robust under AutoAttack. Our cross-paradigm examination suggests that the non-robust features are not really useful but more like paradigm-wise shortcuts, and robust features alone might be insufficient to attain reliable model robustness. Code is available at \url{https://github.com/PKU-ML/AdvNotRealFeatures}.
翻訳日:2024-02-07 04:32:17 公開日:2024-02-03
# パラメタライズドグラフの分布を持つグラフニューラルネットワーク

Graph Neural Networks with a Distribution of Parametrized Graphs ( http://arxiv.org/abs/2310.16401v3 )

ライセンス: Link先を確認
See Hian Lee, Feng Ji, Kelin Xia and Wee Peng Tay(参考訳) 従来、グラフニューラルネットワークは単一の観測グラフを使用して訓練されてきた。 しかし、観測されたグラフは1つしか実現できない。 多くの応用において、グラフは誤ったエッジや欠落、情報的価値の少ないエッジ重みなど不確実性に遭遇する可能性がある。 これらの課題に対処し、以前に観測されたグラフになかった追加情報をキャプチャするために、複数のグラフをパラメータ化し生成するための潜在変数を導入する。 複数のグラフに基づく期待最大化(EM)フレームワークにおいて,ネットワークパラメータの最大推定値を得る。 具体的には,マルコフ連鎖モンテカルロ法 (MCMC) を用いてグラフの分布を反復的に決定し,PAC-ベイジアン理論の原理を取り入れた。 数値実験により、異種グラフのノード分類と化学データセットのグラフ回帰におけるベースラインモデルに対する性能改善が示されている。

Traditionally, graph neural networks have been trained using a single observed graph. However, the observed graph represents only one possible realization. In many applications, the graph may encounter uncertainties, such as having erroneous or missing edges, as well as edge weights that provide little informative value. To address these challenges and capture additional information previously absent in the observed graph, we introduce latent variables to parameterize and generate multiple graphs. We obtain the maximum likelihood estimate of the network parameters in an Expectation-Maximization (EM) framework based on the multiple graphs. Specifically, we iteratively determine the distribution of the graphs using a Markov Chain Monte Carlo (MCMC) method, incorporating the principles of PAC-Bayesian theory. Numerical experiments demonstrate improvements in performance against baseline models on node classification for heterogeneous graphs and graph regression on chemistry datasets.
翻訳日:2024-02-07 04:30:51 公開日:2024-02-03
# 離散消音拡散モデルの固有のプライバシー特性について

On the Inherent Privacy Properties of Discrete Denoising Diffusion Models ( http://arxiv.org/abs/2310.15524v2 )

ライセンス: Link先を確認
Rongzhe Wei, Eleonora Krea\v{c}i\'c, Haoyu Wang, Haoteng Yin, Eli Chien, Vamsi K. Potluru, Pan Li(参考訳) プライバシーに関する懸念から、合成データセットの作成が急増し、将来的な道として拡散モデルが生まれている。 先行研究はこれらのモデルに対して経験的評価を行ったが、プライバシ保護能力の数学的特徴を提供するにはギャップがある。 そこで本研究では,個別データセット生成のための離散拡散モデル(DDM)に固有のプライバシ保護を理論的に検討する。 pdp(per-instance differential privacy)に着目して,与えられたトレーニングデータセット内の各データポイントに対する潜在的なプライバシリークを解明し,各ポイントのプライバシ損失がデータセットの分散とどのように相関するかを考察する。 私たちの境界はまた、$s$サイズのデータポイントでのトレーニングは、純粋なノイズから合成クリーンデータフェーズへの移行の間、ddmの$-pdpの$(\epsilon, o(\frac{1}{s^2\epsilon})$-pdpから$(\epsilon, o(\frac{1}{s\epsilon}))へのプライバシリークの急増をもたらし、拡散係数のより早い減衰は、プライバシの保証を増幅することを示している。 最後に,合成データと実世界のデータの両方について理論的知見を実証的に検証する。

Privacy concerns have led to a surge in the creation of synthetic datasets, with diffusion models emerging as a promising avenue. Although prior studies have performed empirical evaluations on these models, there has been a gap in providing a mathematical characterization of their privacy-preserving capabilities. To address this, we present the pioneering theoretical exploration of the privacy preservation inherent in discrete diffusion models (DDMs) for discrete dataset generation. Focusing on per-instance differential privacy (pDP), our framework elucidates the potential privacy leakage for each data point in a given training dataset, offering insights into how the privacy loss of each point correlates with the dataset's distribution. Our bounds also show that training with $s$-sized data points leads to a surge in privacy leakage from $(\epsilon, O(\frac{1}{s^2\epsilon}))$-pDP to $(\epsilon, O(\frac{1}{s\epsilon}))$-pDP of the DDM during the transition from the pure noise to the synthetic clean data phase, and a faster decay in diffusion coefficients amplifies the privacy guarantee. Finally, we empirically verify our theoretical findings on both synthetic and real-world datasets.
翻訳日:2024-02-07 04:30:38 公開日:2024-02-03
# 運動中の量子ウォーク探索

Quantum-walk search in motion ( http://arxiv.org/abs/2310.14345v3 )

ライセンス: Link先を確認
Himanshu Sahu and Kallol Sen(参考訳) 量子ウォーク探索アルゴリズム(quantum walk search algorithm)は、グラフ内の固定されたノードを探索するために設計された。 しかし、複数のマークノードが存在する場合、従来の検索アルゴリズムでは、マークノードを同時に増幅する能力や、マークノード間の正しい時系列順序を特定する能力が欠けている。 この制限に対処するために、マークされたノードに付加的な量子状態を導入することにより、アルゴリズムの拡張の可能性を探る。 ラベルはマークされたノードの同時増幅の曖昧さを解消する。 さらに、ラベル状態と時系列順序を関連付けることで、2次元表面上で動く粒子を追跡するアルゴリズムを拡張することができる。 本アルゴリズムは粒子の軌道を効率的に探索し,提案する量子回路によって支援される。 このコンセプトは、リアルタイムオブジェクトトラッキングからネットワーク管理やルーティングまで、さまざまなアプリケーションに対して約束されている。

In quantum computing, the quantum walk search algorithm is designed for locating fixed marked nodes within a graph. However, when multiple marked nodes exist, the conventional search algorithm lacks the capacity to simultaneously amplify the marked nodes as well as identify the correct chronological ordering between the marked nodes, if any. To address this limitation, we explore a potential extension of the algorithm by introducing additional quantum states to label the marked nodes. The labels resolve the ambiguity of simultaneous amplification of the marked nodes. Additionally, by associating the label states with a chronological ordering, we can extend the algorithm to track a moving particle on a two-dimensional surface. Our algorithm efficiently searches for the trajectory of the particle and is supported by a proposed quantum circuit. This concept holds promise for a range of applications, from real-time object tracking to network management and routing.
翻訳日:2024-02-07 04:29:50 公開日:2024-02-03
# 誤りから学ぶ: LLMが推論を改善

Learning From Mistakes Makes LLM Better Reasoner ( http://arxiv.org/abs/2310.20689v3 )

ライセンス: Link先を確認
Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen(参考訳) 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。 彼らの推論能力をさらに向上するために、この研究は、LLMが人間の学習プロセスに似たミストエイクス(LEMA)から学習できるかどうかを探求する。 数学の問題を解くのに失敗した人間の学生を考えると、彼はどんな間違いを犯し、どのように修正したかを学ぶだろう。 LEMAはこの誤り駆動学習プロセスを模倣し、微調整LDM中に誤り訂正データペアを組み込む。 具体的には、まずまず様々なLCMから不正確な推論経路を収集し、次にGPT-4を「補正」として使用し、誤りの理由を説明し、誤りを訂正し、最終的な答えを生成する。 さらに,修正データ生成のための質問集合を効果的に拡張する補正中心進化戦略を適用する。 様々な LLM の実験や推論タスクにより、 \textsc{LeMa} は CoT-alone ファインチューニングを一貫して改善している。 さらなる分析では,CoTデータと補正データとの非均一性の有効性と,補正情報の違いによる寄与に光を当てる。 これらの結果から,LLMが誤りから学習することで改善する可能性が示唆された。 私たちのコードとモデルはhttps://github.com/microsoft/LEMA.comで公開されています。

Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve their reasoning capabilities, this work explores whether LLMs can LEarn from MistAkes (LEMA), akin to the human learning process. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LEMA incorporates mistake-correction data pairs during fine-tuning LLMs. Specifically, we first collect inaccurate reasoning paths from various LLMs, and then employ GPT-4 as a "corrector" to identify the mistake step, explain the reason for the mistake, correct the mistake and generate the final answer. In addition, we apply a correction-centric evolution strategy that effectively expands the question set for generating correction data. Experiments across various LLMs and reasoning tasks show that \textsc{LeMa} consistently improves CoT-alone fine-tuning. Our further analysis sheds light on the non-homogeneous effectiveness between CoT data and correction data, and the contribution from different correction information. These results suggest a significant potential for LLMs to improve through learning from their mistakes. Our code and models are publicly available at https://github.com/microsoft/LEMA.
翻訳日:2024-02-07 04:16:40 公開日:2024-02-03
# スコア蒸留による拡散系模倣の効果的防止に向けて

Toward effective protection against diffusion based mimicry through score distillation ( http://arxiv.org/abs/2311.12832v2 )

ライセンス: Link先を確認
Haotian Xue, Chumeng Liang, Xiaoyu Wu, Yongxin Chen(参考訳) 生成拡散モデルは高品質な画像を生成するのに優れているが、認証された画像を模倣するために誤用することもでき、AIシステムに重大な脅威をもたらす。 拡散に基づく模倣パイプラインから画像を保護するために、キャリブレーションされた摂動を追加する努力がなされている。 しかし、既存の手法のほとんどは非効率であり、高い計算量とメモリ要求のために個々のユーザーが使用するには実用的ではない。 本研究では,遅延拡散モデル(LDM)の攻撃に関する新たな知見と,より効果的な保護のための新しいプラグアンドプレイ戦略を提案する。 特に、ldmを攻撃する際のボトルネックを探求し、デノイザーモジュールではなくエンコーダモジュールが脆弱な点であることを発見します。 この知見に基づいて,SDS(Score Distillation Sampling)を用いて保護速度を2倍にし,その強度を損なうことなくメモリ占有量を半減する戦略を提案する。 さらに,より自然な摂動を生成するのに役立つ意味的損失を,直感的に最小化することで,堅牢な保護戦略を提供する。 最後に,本研究の成果を裏付ける広範な実験を行い,新たに提案した戦略を総合的に評価する。 我々の洞察と保護措置が、悪意のある拡散に基づく模倣に対する防御に寄与し、セキュアなAIシステムの開発を促進することを願っている。 コードはhttps://github.com/xavihart/Diff-Protectで入手できる。

While generative diffusion models excel in producing high-quality images, they can also be misused to mimic authorized images, posing a significant threat to AI systems. Efforts have been made to add calibrated perturbations to protect images from diffusion-based mimicry pipelines. However, most of the existing methods are too ineffective and even impractical to be used by individual users due to their high computation and memory requirements. In this work, we present novel findings on attacking latent diffusion models (LDM) and propose new plug-and-play strategies for more effective protection. In particular, we explore the bottleneck in attacking an LDM, discovering that the encoder module rather than the denoiser module is the vulnerable point. Based on this insight, we present our strategy using Score Distillation Sampling (SDS) to double the speed of protection and reduce memory occupation by half without compromising its strength. Additionally, we provide a robust protection strategy by counterintuitively minimizing the semantic loss, which can assist in generating more natural perturbations. Finally, we conduct extensive experiments to substantiate our findings and comprehensively evaluate our newly proposed strategies. We hope our insights and protective measures can contribute to better defense against malicious diffusion-based mimicry, advancing the development of secure AI systems. The code is available in https://github.com/xavihart/Diff-Protect
翻訳日:2024-02-07 04:08:42 公開日:2024-02-03
# 一般環境からの因果表現の学習:識別可能性と内在的曖昧性

Learning Causal Representations from General Environments: Identifiability and Intrinsic Ambiguity ( http://arxiv.org/abs/2311.12267v2 )

ライセンス: Link先を確認
Jikai Jin and Vasilis Syrgkanis(参考訳) 本研究では,複数の環境から発生する観測データへのアクセスを想定し,因果関係を低レベル観測データ(テキストや画像など)から因果関係の形で復元する因果表現学習について検討する。 因果表現の識別可能性に関する先行の結果は、通常、潜在変数がそもそも不明であるため、実際には現実的ではない単ノード介入へのアクセスを想定している。 本研究では,一般的な環境から得られるデータに基づいて,最初の識別可能性を示す。 線形因果モデルでは、因果グラフが完全に回復できるが、潜在変数は囲まれたノード曖昧性 (sna) \citep{varici2023score} によってのみ同定される。 私たちは、SNAが基本的に私たちの設定では避けられないことを示す保証の相手を提供します。 また,SNAまでの地下構造モデルを良好に復元するアルゴリズムである \texttt{LiNGCReL} を提案し,数値実験によりその有効性を実証する。 最後に, 一般的な非パラメトリック因果モデルを検討し, ソフトな単ノード介入群へのアクセスを仮定すると, 同じ識別障壁が成立することを示す。

We study causal representation learning, the task of recovering high-level latent variables and their causal relationships in the form of a causal graph from low-level observed data (such as text and images), assuming access to observations generated from multiple environments. Prior results on the identifiability of causal representations typically assume access to single-node interventions which is rather unrealistic in practice, since the latent variables are unknown in the first place. In this work, we provide the first identifiability results based on data that stem from general environments. We show that for linear causal models, while the causal graph can be fully recovered, the latent variables are only identified up to the surrounded-node ambiguity (SNA) \citep{varici2023score}. We provide a counterpart of our guarantee, showing that SNA is basically unavoidable in our setting. We also propose an algorithm, \texttt{LiNGCReL} which provably recovers the ground-truth model up to SNA, and we demonstrate its effectiveness via numerical experiments. Finally, we consider general non-parametric causal models and show that the same identification barrier holds when assuming access to groups of soft single-node interventions.
翻訳日:2024-02-07 04:07:40 公開日:2024-02-03
# QAC0のパウリスペクトルについて

On the Pauli Spectrum of QAC0 ( http://arxiv.org/abs/2311.09631v3 )

ライセンス: Link先を確認
Shivam Nadimpalli, Natalie Parham, Francisca Vasconcelos, Henry Yuen(参考訳) 回路クラス $\mathsf{QAC}^0$ はムーア (1999) によって、ゲート集合が多ビットトフォリゲートを含む定数深さ量子回路のモデルとして導入された。 そのような回路に対する下界の証明は、量子回路の複雑さにおける長年の挑戦であり、特に多項式サイズの$\mathsf{QAC}^0$がパリティ関数を計算できないことを示すことは、20年以上も未解決の問題のままである。 本研究では、古典的な$\mathsf{ac}^0$回路のフーリエスペクトルの量子アナログと見なすことができる、$\mathsf{qac}^0$回路のポーリスペクトルの概念を同定する。 我々は、$\mathsf{QAC}^0$回路のパウリスペクトルが、有名なLinial, Nisan, Mansour定理に類似して、$\mathsf{QAC}^0$回路の低次フーリエ濃度に対する低次濃度を満たすことを予想する。 もし真なら、この予想は直ちに多項式サイズ$\mathsf{QAC}^0$回路がパリティを計算できないことを意味する。 我々はこの予想を、少なくとも$n^{O(1/d)}$補助量子ビットを持つ深さ=d$、多項式サイズ$\mathsf{QAC}^0$回路のクラスで証明する。 この種類の回路は正しく計算できない - 入力の$(\frac{1}{2} + 2^{-\omega(n^{1/d})} 以上の$n$-bitパリティ関数と$(\frac{1}{2} + o(n^{-1/4})) 入力の$-fraction。 さらに、補助量子ビットが制限された $\mathsf{QAC}^0$ 回路のクラスは準ポリノミカル標本の複雑さで学習できることを示し、$\mathsf{QAC}^0$ 回路に対する最初の学習結果を与える。 より広い意味で、この結果は「ポール解析」技術が量子回路の研究に強力なツールとなる証拠を与える。

The circuit class $\mathsf{QAC}^0$ was introduced by Moore (1999) as a model for constant depth quantum circuits where the gate set includes many-qubit Toffoli gates. Proving lower bounds against such circuits is a longstanding challenge in quantum circuit complexity; in particular, showing that polynomial-size $\mathsf{QAC}^0$ cannot compute the parity function has remained an open question for over 20 years. In this work, we identify a notion of the Pauli spectrum of $\mathsf{QAC}^0$ circuits, which can be viewed as the quantum analogue of the Fourier spectrum of classical $\mathsf{AC}^0$ circuits. We conjecture that the Pauli spectrum of $\mathsf{QAC}^0$ circuits satisfies low-degree concentration, in analogy to the famous Linial, Nisan, Mansour theorem on the low-degree Fourier concentration of $\mathsf{AC}^0$ circuits. If true, this conjecture immediately implies that polynomial-size $\mathsf{QAC}^0$ circuits cannot compute parity. We prove this conjecture for the class of depth-$d$, polynomial-size $\mathsf{QAC}^0$ circuits with at most $n^{O(1/d)}$ auxiliary qubits. We obtain new circuit lower bounds and learning results as applications: this class of circuits cannot correctly compute - the $n$-bit parity function on more than $(\frac{1}{2} + 2^{-\Omega(n^{1/d})})$-fraction of inputs, and - the $n$-bit majority function on more than $(\frac{1}{2} + O(n^{-1/4}))$-fraction of inputs. Additionally we show that this class of $\mathsf{QAC}^0$ circuits with limited auxiliary qubits can be learned with quasipolynomial sample complexity, giving the first learning result for $\mathsf{QAC}^0$ circuits. More broadly, our results add evidence that "Pauli-analytic" techniques can be a powerful tool in studying quantum circuits.
翻訳日:2024-02-07 04:06:27 公開日:2024-02-03
# データ汚染クイズ:大規模言語モデルにおける汚染の検出と推定ツール

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models ( http://arxiv.org/abs/2311.06233v4 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) 本研究では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な検出手法であるData Contamination Quiz (DCQ)を提案する。 具体的には、データの汚染検出を複数の質問の連続としてフレーム化し、各データセットインスタンスの3つの摂動バージョンを作成するクイズフォーマットを考案する。 これらの変更は単語レベルの摂動のみを含む。 生成された摂動バージョンは、元のインスタンスとともにDCQのオプションを形成し、提供された選択が正しくない可能性を調整した追加オプションを提供する。 選択の中で唯一区別される信号が、元のインスタンスに対する正確なワード処理であることを考えると、LLMは、選択から元のインスタンスを識別するタスクを課されたとき、前訓練フェーズでそのインスタンスに露呈された場合、元のインスタンスへ誘導する。 GPT-4/3.5を用いて複数のデータセットで検証した結果、LCMの事前学習データと内部パラメータへのアクセスが完全に欠如しているにもかかわらず、DCQは既存の検出方法と比較して汚染レベルが大きいことを明らかにし、特に著作権のあるコンテンツの生成を避けるためのセットを適切に回避している。

We propose the Data Contamination Quiz (DCQ), a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions and devise a quiz format wherein three perturbed versions of each dataset instance are created. These changes only include word-level perturbations. The generated perturbed versions, along with the original instance, form the options in the DCQ, with an extra option accommodating the possibility that none of the provided choices is correct. Given that the only distinguishing signal among the choices is the exact wording relative to the original instance, an LLM, when tasked with identifying the original instance from the choices, gravitates towards the original one if it has been exposed to it in its pre-training phase--a trait intrinsic to LLMs. Tested over several datasets with GPT-4/3.5, our findings--while fully lacking access to LLMs' pre-training data and internal parameters--suggest that DCQ uncovers greater contamination levels compared to existing detection methods and proficiently bypasses more safety filters, especially those set to avoid generating copyrighted contents.
翻訳日:2024-02-07 04:05:24 公開日:2024-02-03
# SASSL: ニューラルネットワークによる自己監督型学習の強化

SASSL: Enhancing Self-Supervised Learning via Neural Style Transfer ( http://arxiv.org/abs/2312.01187v3 )

ライセンス: Link先を確認
Renan A. Rojas-Gomez, Karan Singhal, Ali Etemad, Alex Bijamov, Warren R. Morningstar, Philip Andrew Mansfield(参考訳) 自己教師付き学習における既存のデータ拡張は多様なが、自然画像の固有の構造を保存できない。 この結果、乱れたセマンティック情報を持つ歪んだ拡張サンプルが、最終的に下流のパフォーマンスに影響を及ぼす。 そこで我々は,ニューラルネットワークを用いた新しい拡張手法であるSASSL: Style Augmentations for Self Supervised Learningを提案する。 SASSLは、イメージのセマンティック属性とスタイリスティック属性を分離し、コンテンツを保持しながらスタイルのみに変換を適用し、セマンティクスをよりよく保持する多様なサンプルを生成する。 提案手法は,MoCo,SimCLR,BYOLなどの自己教師型手法と比較して,ImageNet上のトップ1分類精度を最大2$\%向上させると同時に,各種データセット間の転送学習性能に優れる。

Existing data augmentation in self-supervised learning, while diverse, fails to preserve the inherent structure of natural images. This results in distorted augmented samples with compromised semantic information, ultimately impacting downstream performance. To overcome this, we propose SASSL: Style Augmentations for Self Supervised Learning, a novel augmentation technique based on Neural Style Transfer. SASSL decouples semantic and stylistic attributes in images and applies transformations exclusively to the style while preserving content, generating diverse samples that better retain semantics. Our technique boosts top-1 classification accuracy on ImageNet by up to 2$\%$ compared to established self-supervised methods like MoCo, SimCLR, and BYOL, while achieving superior transfer learning performance across various datasets.
翻訳日:2024-02-07 03:57:05 公開日:2024-02-03
# エントロピー速度最小化による予測可能強化学習ダイナミクス

Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization ( http://arxiv.org/abs/2311.18703v2 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Giannis Delimpaltadakis, Jens Kober, Javier Alonso-Mora(参考訳) 強化学習(rl)では、エージェントは予測可能な行動を示すインセンティブを持たず、しばしば(ポリシーエントロピー正規化などを通じて)探索に有利な行動をランダム化する。 人間の視点では、RLエージェントの解釈と予測が難しくなり、安全性の観点からは、正式な検証がさらに難しくなります。 本稿では,予測可能性指標として状態列エントロピー率を用いる予測可能性認識RL (Predictability-Aware RL) と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。 本稿では, 平均報酬目標としてエントロピー率を定式化する方法を示し, そのエントロピー報酬関数は政策依存であるため, PG法を応用可能なアクション依存サロゲートエントロピーを導入する。 平均代理報酬を最小化する決定論的ポリシーの存在を証明し、実際のエントロピー率を最小化するとともに、学習力学モデルが与えられた場合、真のエントロピー率に付随する値関数を近似できることを示す。 最後に、人間-ロボットのユースケースに触発されたrlタスクにおけるアプローチの有効性を実証し、最適に近い報酬を得ながら、より予測可能な振る舞いを持つエージェントを生成する方法を示す。

In Reinforcement Learning (RL), agents have no incentive to exhibit predictable behaviors, and are often pushed (through e.g. policy entropy regularization) to randomize their actions in favor of exploration. From a human perspective, this makes RL agents hard to interpret and predict, and from a safety perspective, even harder to formally verify. We propose a novel method to induce predictable behavior in RL agents, referred to as Predictability-Aware RL (PA-RL), which employs the state sequence entropy rate as a predictability measure. We show how the entropy rate can be formulated as an average reward objective, and since its entropy reward function is policy-dependent, we introduce an action-dependent surrogate entropy enabling the use of PG methods. We prove that deterministic policies minimizing the average surrogate reward exist and also minimize the actual entropy rate, and show how, given a learned dynamical model, we are able to approximate the value function associated to the true entropy rate. Finally, we demonstrate the effectiveness of the approach in RL tasks inspired by human-robot use-cases, and show how it produces agents with more predictable behavior while achieving near-optimal rewards.
翻訳日:2024-02-07 03:56:05 公開日:2024-02-03
# 潜在表現の多様性評価のための計量空間マグニチュード

Metric Space Magnitude for Evaluating the Diversity of Latent Representations ( http://arxiv.org/abs/2311.16054v2 )

ライセンス: Link先を確認
Katharina Limbeck, Rayna Andreeva, Rik Sarkar, Bastian Rieck(参考訳) 計量空間の大きさは、最近確立された不変量であり、複数のスケールにわたる空間の「有効サイズ」の測度を提供すると同時に、多くの幾何学的性質を捉えている。 我々は、潜在表現の固有多様性の等級に基づく尺度の族を開発し、有限距離空間の等級関数間の新しい類似性の概念を定式化する。 我々の測度はデータの摂動下では確実に安定であり、効率的に計算でき、潜在表現の厳密なマルチスケール比較を可能にする。 多様性の評価,モード崩壊の検出,テキスト,画像,グラフデータの生成モデルの評価など,さまざまな領域とタスクからなる実験スイートにおいて,本手法の有用性と優れた性能を示す。

The magnitude of a metric space is a recently-established invariant, providing a measure of the 'effective size' of a space across multiple scales while also capturing numerous geometrical properties. We develop a family of magnitude-based measures of the intrinsic diversity of latent representations, formalising a novel notion of dissimilarity between magnitude functions of finite metric spaces. Our measures are provably stable under perturbations of the data, can be efficiently calculated, and enable a rigorous multi-scale comparison of latent representations. We show the utility and superior performance of our measures in an experimental suite that comprises different domains and tasks, including the evaluation of diversity, the detection of mode collapse, and the evaluation of generative models for text, image, and graph data.
翻訳日:2024-02-07 03:53:54 公開日:2024-02-03
# ランダム林におけるノード数と樹木数とのトレードオフについて

On the Trade-off between the Number of Nodes and the Number of Trees in a Random Forest ( http://arxiv.org/abs/2312.11540v2 )

ライセンス: Link先を確認
Tatsuya Akutsu, Avraham A. Melkman, Atsuhiro Takasu(参考訳) 本稿では,ランダム林の予測フェーズに着目し,二分領域上の二分決定問題と,内部ノードが1つの変数のブール値のクエリに制限される単純な決定木についてのみ考慮した,より小さな決定木を用いて決定木の袋を表現する問題を考察する。 主な結果として、$n$変数の多数関数は、多項式サイズの$T$$$<n$)決定ツリーのバッグで表され、$n-T$が定数であれば、$n$と$T$は奇数でなければならない(タイブレークを避けるために)。 また、n$決定木の袋は、n-t$が定数であり、小さな分類誤差が許容される場合に多項式サイズでそれぞれ$t$決定ツリーの袋で表現できることを示した。 k$-out-of-n$関数に関する関連する結果も提示される。

In this paper, we focus on the prediction phase of a random forest and study the problem of representing a bag of decision trees using a smaller bag of decision trees, where we only consider binary decision problems on the binary domain and simple decision trees in which an internal node is limited to querying the Boolean value of a single variable. As a main result, we show that the majority function of $n$ variables can be represented by a bag of $T$ ($< n$) decision trees each with polynomial size if $n-T$ is a constant, where $n$ and $T$ must be odd (in order to avoid the tie break). We also show that a bag of $n$ decision trees can be represented by a bag of $T$ decision trees each with polynomial size if $n-T$ is a constant and a small classification error is allowed. A related result on the $k$-out-of-$n$ functions is presented too.
翻訳日:2024-02-07 03:45:36 公開日:2024-02-03
# ギャップのブリッジ:モデル予測制御にインスパイアされた検証可能なモデルフリー二次プログラミングコントローラ

Bridging the Gaps: Learning Verifiable Model-Free Quadratic Programming Controllers Inspired by Model Predictive Control ( http://arxiv.org/abs/2312.05332v4 )

ライセンス: Link先を確認
Yiwen Lu, Zishuo Li, Yihan Zhou, Na Li, Yilin Mo(参考訳) 本稿では,モデル予測制御(MPC)からインスピレーションを得た新しいパラメータ化コントローラについて紹介する。 コントローラは線形MPC問題の擬似プログラミング(QP)解法に似ており、コントローラのパラメータはシステムモデルから派生するのではなく、Deep Reinforcement Learning(DRL)を介して訓練されている。 このアプローチは、多層パーセプトロン(MLP)や他のDRLで使用される一般的なニューラルネットワークアーキテクチャによる共通コントローラの制限を、検証性と性能保証の観点から解決し、学習したコントローラは、MPCに似た持続可能性や漸近安定性などの検証可能な特性を有する。 一方,提案するコントローラは,制御性能の面ではmpcやmlpコントローラと実証的に一致し,モデリングの不確かさやノイズに対して優れたロバスト性を有することを示す数値例がある。 さらに,提案した制御器はMPCに比べて計算効率が良く,MLP制御器よりも学習パラメータが少ない。 車両のドリフト操作タスクに関する実世界実験は、ロボットやその他の必要な制御タスクにおけるこれらのコントローラーの可能性を示しています。

In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). The controller resembles a Quadratic Programming (QP) solver of a linear MPC problem, with the parameters of the controller being trained via Deep Reinforcement Learning (DRL) rather than derived from system models. This approach addresses the limitations of common controllers with Multi-Layer Perceptron (MLP) or other general neural network architecture used in DRL, in terms of verifiability and performance guarantees, and the learned controllers possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC. On the other hand, numerical examples illustrate that the proposed controller empirically matches MPC and MLP controllers in terms of control performance and has superior robustness against modeling uncertainty and noises. Furthermore, the proposed controller is significantly more computationally efficient compared to MPC and requires fewer parameters to learn than MLP controllers. Real-world experiments on vehicle drift maneuvering task demonstrate the potential of these controllers for robotics and other demanding control tasks.
翻訳日:2024-02-07 03:43:29 公開日:2024-02-03
# GPT-4V:一般感情認識のためのゼロショットベンチマーク

GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition ( http://arxiv.org/abs/2312.04293v2 )

ライセンス: Link先を確認
Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu, Bin Liu, Jianhua Tao(参考訳) 近年, GPT-4 with Vision (GPT-4V) は様々なタスクにおいて顕著な視覚能力を示したが, 感情認識性能は十分に評価されていない。 このギャップを埋めるため,gpt-4vの定量的評価結果を,視覚感情分析,マイクロ表現認識,表情認識,動的表情認識,マルチモーダル感情認識の5つのタスクをカバーする19のベンチマークデータセットに提示する。 本稿では,これらの課題を総合的に「一般化感情認識(GER)」と呼ぶ。 実験により,GPT-4Vは視覚的感情分析において教師付きシステムよりも優れており,その強力な視覚理解能力を強調している。 一方、GPT-4Vは、マルチモーダルな手がかりを統合し、時間的情報を活用する能力を示す。 これらの成果にもかかわらず、gpt-4vは主に専門知識を必要とするマイクロ表現を認識できない汎用ドメイン向けに調整されている。 本稿では,GER タスクに対する GPT-4V の定量的評価を初めて行い,この分野の研究者に貴重な知見を提供する。 また、その後の研究のゼロショットベンチマークとしても機能する。 コードと評価結果は、https://github.com/zeroqiaoba/gpt4v-emotion.com/で確認できます。

Recently, GPT-4 with Vision (GPT-4V) has demonstrated remarkable visual capabilities across various tasks, but its performance in emotion recognition has not been fully evaluated. To bridge this gap, we present the quantitative evaluation results of GPT-4V on 19 benchmark datasets covering 5 tasks: visual sentiment analysis, micro-expression recognition, facial emotion recognition, dynamic facial emotion recognition, and multimodal emotion recognition. This paper collectively refers to these tasks as ``Generalized Emotion Recognition (GER)''. Through experimental analysis, we observe that GPT-4V generally outperforms supervised systems in visual sentiment analysis, highlighting its powerful visual understanding capabilities. Meanwhile, GPT-4V shows the ability to integrate multimodal clues and exploit temporal information, which is also critical for emotion recognition. Despite these achievements, GPT-4V is primarily tailored for general-purpose domains, which cannot recognize micro-expressions that require specialized knowledge. To the best of our knowledge, this paper provides the first quantitative assessment of GPT-4V for the GER tasks, offering valuable insights to researchers in this field. It can also serve as a zero-shot benchmark for subsequent research. Our code and evaluation results are available at: https://github.com/zeroQiaoba/gpt4v-emotion.
翻訳日:2024-02-07 03:42:13 公開日:2024-02-03
# 高次微分の要約によるニューラルネットへのニュートン法の適用

Adapting Newton's Method to Neural Networks through a Summary of Higher-Order Derivatives ( http://arxiv.org/abs/2312.03885v2 )

ライセンス: Link先を確認
Pierre Wolinski(参考訳) 変数のベクトルの関数 $\mathcal{L}$ に適用される勾配に基づく最適化法を、$\boldsymbol{\theta}$ がテンソル $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$ のタプルとして表される場合に考える。 このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。 まず, テンソル$\mathbf{T}_s$ 上の高次情報, 特にテンソル $\mathbf{T}_s$ 間の相互作用について, 自動微分と計算手法に基づいて高次情報を提供する計算コスト手法を提案する。 第2に,この手法を順序2で使用し,様々なアーキテクチャの深層ニューラルネットワークの学習に適した2次最適化手法を構築した。 この二階法では、$\boldsymbol{\theta}$ の分割構造をテンソル $(\mathbf{t}_1, \cdots, \mathbf{t}_s)$ に利用し、$\boldsymbol{\theta}$ に従えば $\mathcal{l}$ のヘッセンの計算も必要としない。 鍵となる部分は、より小さな行列を「分割に従ってヘッセン」と解釈し、正確に効率的に計算できる計算である。 ヘシアンあるいはその逆の対角あるいはブロック対角近似を行うニューラルネットワークで用いられる多くの既存の実用的二階法とは対照的に、提案手法は層間の相互作用を無視しない。 最後に、分割の粗さを調整してよく知られた最適化手法を復元することができる: 粗いケースはコーシーの最も急降下法に対応し、最も細かいケースは通常のニュートン法に対応している。

We consider a gradient-based optimization method applied to a function $\mathcal{L}$ of a vector of variables $\boldsymbol{\theta}$, in the case where $\boldsymbol{\theta}$ is represented as a tuple of tensors $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$. This framework encompasses many common use-cases, such as training neural networks by gradient descent. First, we propose a computationally inexpensive technique providing higher-order information on $\mathcal{L}$, especially about the interactions between the tensors $\mathbf{T}_s$, based on automatic differentiation and computational tricks. Second, we use this technique at order 2 to build a second-order optimization method which is suitable, among other things, for training deep neural networks of various architectures. This second-order method leverages the partition structure of $\boldsymbol{\theta}$ into tensors $(\mathbf{T}_1, \cdots, \mathbf{T}_S)$, in such a way that it requires neither the computation of the Hessian of $\mathcal{L}$ according to $\boldsymbol{\theta}$, nor any approximation of it. The key part consists in computing a smaller matrix interpretable as a "Hessian according to the partition", which can be computed exactly and efficiently. In contrast to many existing practical second-order methods used in neural networks, which perform a diagonal or block-diagonal approximation of the Hessian or its inverse, the method we propose does not neglect interactions between layers. Finally, we can tune the coarseness of the partition to recover well-known optimization methods: the coarsest case corresponds to Cauchy's steepest descent method, the finest case corresponds to the usual Newton's method.
翻訳日:2024-02-07 03:41:50 公開日:2024-02-03
# 量子情報処理のためのロバスト原子光子ゲート

Robust atom-photon gate for quantum information processing ( http://arxiv.org/abs/2312.13221v2 )

ライセンス: Link先を確認
Omar Nagib, P. Huft, A. Safari, and M. Saffman(参考訳) 空飛ぶ光子とキャビティ内の原子との間の2量子ビットゲートのスキームを提案する。 原子-光子ゲートの配置は、空洞とマッハ-ツェンダー干渉計と2重縮退した地面と、原子-光相互作用を媒介する励起状態エネルギーレベルから構成される。 本稿では,光子と空洞間の空間モードミスマッチ,自然放出,空洞損失,変形,空洞パラメータと周波数のランダム変動など,ゲートの誤差解析と重要な誤差のモデル化を行う。 誤差解析により、ゲートプロトコルは従来の原子光子ゲートよりも実験誤差に対してより頑健であり、高い忠実性を達成することが示されている。

We propose a scheme for two-qubit gates between a flying photon and an atom in a cavity. The atom-photon gate setup consists of a cavity and a Mach-Zehnder interferometer with doubly degenerate ground and excited state energy levels mediating the atom-light interaction. We provide an error analysis of the gate and model important errors, including spatial mode mismatch between the photon and the cavity, spontaneous emission, cavity losses, detunings, and random fluctuations of the cavity parameters and frequencies. Error analysis shows that the gate protocol is more robust against experimental errors compared to previous atom-photon gates and achieves higher fidelity.
翻訳日:2024-02-07 03:28:30 公開日:2024-02-03
# 穏やかな安定化を伴う単一光子干渉に基づく多重量子リピータ

Multiplexed quantum repeaters based on single-photon interference with mild stabilization ( http://arxiv.org/abs/2401.09578v2 )

ライセンス: Link先を確認
Daisuke Yoshida, Tomoyuki Horikiri(参考訳) 量子リピータは、量子インターネットの物理層において重要な存在である。 その開発には、効率の良い絡み合い分布が可能な量子リピータが必要である。 単一光子干渉に基づく量子リピータスキームは、そのポテンシャル効率のために有望である。 しかし、遠方のノードにおける光子源との1次干渉を含むスキームでは、コンポーネントの厳密な位相安定性が必要となり、長距離実装の課題となる。 本稿では,位相安定化の難しさを低減した単一光子干渉を利用した量子リピータ方式を提案する。 さらに,具体的条件下では,提案方式は既存方式と比較して,終端ノード間の絡み合い分布率が高いことを示す。 このアプローチは、マルチモード量子メモリと2光子源を含む実現可能な技術のみを用いて実装可能であり、高い絡み合い分布率と軽度位相安定化を提供し、マルチモード量子リピータの開発に繋がる。

Quantum repeaters are pivotal in the physical layer of the quantum internet. For its development, quantum repeaters capable of efficient entanglement distribution are necessary. Quantum repeater schemes based on single-photon interference are promising due to their potential efficiency. However, schemes involving first-order interference with photon sources at distant nodes require stringent phase stability in the components, which poses challenges for long-distance implementation. In this paper, we present a quantum repeater scheme that leverages single-photon interference with reduced difficulty of phase stabilization. Additionally, under specific conditions, we demonstrate that our scheme achieves a higher entanglement distribution rate between end nodes compared to existing schemes. This approach, implementable using only feasible technologies including multimode quantum memories and two-photon sources, offers high entanglement distribution rates and mild phase stabilization, leading to the development of multimode quantum repeaters.
翻訳日:2024-02-07 03:19:59 公開日:2024-02-03
# DrawTalking: スケッチと講演によるインタラクティブな世界の構築

DrawTalking: Building Interactive Worlds by Sketching and Speaking ( http://arxiv.org/abs/2401.05631v2 )

ライセンス: Link先を確認
Karl Toby Rosenberg, Rubaiat Habib Kazi, Li-Yi Wei, Haijun Xia, Ken Perlin(参考訳) 本稿では,対話的な世界をスケッチ・アンド・スポーキングによって構築するアプローチを可能にするプロトタイプシステムであるdrawtalkingを紹介する。 このアプローチはユーザコントロールと柔軟性を強調し、コードを必要としないプログラミングのような機能を提供する。 初期の公開研究は、機械が共鳴し、多くの創造的探索的ユースケースに適用可能であり、将来の自然インターフェイスにおける創造的探索とオーサリングの研究を刺激し、知らせる可能性を秘めている。

We introduce DrawTalking, a prototype system enabling an approach that empowers users to build interactive worlds by sketching and speaking. The approach emphasizes user control and flexibility, and gives programming-like capability without requiring code. An early open-ended study shows the mechanics resonate and are applicable to many creative-exploratory use cases, with the potential to inspire and inform research in future natural interfaces for creative exploration and authoring.
翻訳日:2024-02-07 03:19:14 公開日:2024-02-03
# MST: インタラクティブセグメンテーションによる適応型マルチスケールトークン

MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation ( http://arxiv.org/abs/2401.04403v2 )

ライセンス: Link先を確認
Long Xu, Shanghong Li, Yongquan Chen, Jun Luo, Shiwu Lai(参考訳) 対話的セグメンテーションは、人間とコンピュータのインタラクションやデータアノテーションへの応用において大きな注目を集めている。 対話的セグメンテーションにおけるターゲットスケール変動問題に対処するために,新しいマルチスケールトークン適応アルゴリズムを提案する。 マルチスケールトークンをまたいでトップk操作を行うことで、計算の複雑さは性能を確保しながら大幅に単純化される。 また,マルチスケールトークン選択のロバスト性を高めるため,コントラスト損失に基づくトークン学習アルゴリズムを提案する。 このアルゴリズムは、マルチスケールトークン適応の性能を効果的に改善することができる。 大規模なベンチマークでは、現在の手法と比較して、アルゴリズムが最先端(SOTA)のパフォーマンスを達成することが示されている。 インタラクティブなデモとすべての再現可能なコードは、https://github.com/hahamyt/mstで公開される。

Interactive segmentation has gained significant attention for its application in human-computer interaction and data annotation. To address the target scale variation issue in interactive segmentation, a novel multi-scale token adaptation algorithm is proposed. By performing top-k operations across multi-scale tokens, the computational complexity is greatly simplified while ensuring performance. To enhance the robustness of multi-scale token selection, we also propose a token learning algorithm based on contrastive loss. This algorithm can effectively improve the performance of multi-scale token adaptation. Extensive benchmarking shows that the algorithm achieves state-of-the-art (SOTA) performance, compared to current methods. An interactive demo and all reproducible codes will be released at https://github.com/hahamyt/mst.
翻訳日:2024-02-07 03:17:12 公開日:2024-02-03
# マルチポートビームスプリッターの多部絡み合いクラス

The multipartite entanglement classes of a multiport beam-splitter ( http://arxiv.org/abs/2401.02619v2 )

ライセンス: Link先を確認
F. E. S. Steinhoff(参考訳) マルチポートビームスプリッターが生成する状態は、通常、多くの空間モード間の真のマルチパートの絡み合いを示す。 本稿では,古典的コミュニケーションを伴う確率的局所操作のパラダイムの中で,この実践的な状況で生じる多部交絡状態の異なるクラスについて検討する。 我々は,多元的絡み合いクラスが総数階層に従う場合と,各クラスが非古典次数階層に従う場合と,前2つの組み合わせである場合の3つのシナリオに注目した。

The states generated by a multiport beam-splitter usually display genuine multipartite entanglement between the many spatial modes. Here we investigate the different classes of multipartite entangled states that arise in this practical situation, working within the paradigm of Stochastic Local Operations with Classical Communication. We highlight three scenarios, one where the multipartite entanglement classes follow a total number hierarchy, another where the various classes follow a nonclassicality degree hierarchy and a third one that is a combination of the previous two.
翻訳日:2024-02-07 03:16:43 公開日:2024-02-03
# LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ

LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning ( http://arxiv.org/abs/2401.01325v2 )

ライセンス: Link先を確認
Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu(参考訳) LLMは、トレーニングシーケンス長よりも長さが大きい長い文脈ではうまく一般化できないことはよく知られている。 これは推論中に長い入力シーケンスを処理するためにllmを使用する場合の課題となる。 本研究では,LLM自体が,微調整をせずに長いコンテキストを処理できる固有の能力を持っていることを論じる。 この目的を達成するために,両レベルの注意情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。 グループ化されたアテンションは、遠く離れたトークン間の依存関係をキャプチャし、隣のアテンションは特定の範囲内のトークン間の依存関係をキャプチャする。 2段階の注意は、推論中に元のモデルの自己注意機構に基づいて計算される。 マイナーなコード修正によって、SelfExtendは、微調整なしで既存のLLMのコンテキストウィンドウを拡張することができます。 複数のベンチマークを総合的に実験した結果,既存のllmsのコンテキストウィンドウ長を効果的に拡張できることがわかった。 コードは \url{https://github.com/datamllab/LongLM} で見ることができる。

It is well known that LLMs cannot generalize well to long contexts whose lengths are larger than the training sequence length. This poses challenges when employing LLMs for processing long input sequences during inference. In this work, we argue that LLMs themselves have inherent capabilities to handle long contexts without fine-tuning. To achieve this goal, we propose SelfExtend to extend the context window of LLMs by constructing bi-level attention information: the grouped attention and the neighbor attention. The grouped attention captures the dependencies among tokens that are far apart, while neighbor attention captures dependencies among adjacent tokens within a specified range. The two-level attentions are computed based on the original model's self-attention mechanism during inference. With minor code modification, our SelfExtend can effortlessly extend existing LLMs' context window without any fine-tuning. We conduct comprehensive experiments on multiple benchmarks and the results show that our SelfExtend can effectively extend existing LLMs' context window length. The code can be found at \url{https://github.com/datamllab/LongLM}.
翻訳日:2024-02-07 03:16:09 公開日:2024-02-03
# ソフトウェア工学テキストにおける感情分類:事前学習されたトランスフォーマー言語モデルの比較分析

Emotion Classification In Software Engineering Texts: A Comparative Analysis of Pre-trained Transformers Language Models ( http://arxiv.org/abs/2401.10845v3 )

ライセンス: Link先を確認
Mia Mohammad Imran(参考訳) ソフトウェア工学のテキストにおける感情認識は、開発者表現の理解とコラボレーションの改善に不可欠である。 本稿では,github と stack overflow の2つのベンチマークデータセットにおけるきめ細かな感情分類のための最先端事前学習言語モデル (ptm) の比較分析を行う。 我々は、現在最高のパフォーマンスツールであるSEntiMojiに対して、BERT、RoBERTa、ALBERT、DeBERTa、CodeBERT、GraphCodeBERTの6つのトランスフォーマーモデルを評価する。 分析の結果、マクロ平均値とマイクロ平均値のF1スコアは1.17%から16.79%に一貫した改善が見られ、一般ドメインモデルは特殊モデルよりも優れていた。 PTMをさらに強化するために、トレーニング中に注意層に極性特性を取り入れ、ベースラインのPTMアプローチよりも1.0\%から10.23\%の平均ゲインを増すことを示した。 私たちの研究は、ソフトウェアエンジニアリングの文脈において、怒り、愛、恐怖、喜び、悲しみ、驚きといったニュアンス的な感情を認識するptmが与えた進歩の強力な証拠を提供します。 包括的なベンチマークとエラー解析を通じて、コンテキストギャップに対処するための改善のスコープを概説する。

Emotion recognition in software engineering texts is critical for understanding developer expressions and improving collaboration. This paper presents a comparative analysis of state-of-the-art Pre-trained Language Models (PTMs) for fine-grained emotion classification on two benchmark datasets from GitHub and Stack Overflow. We evaluate six transformer models - BERT, RoBERTa, ALBERT, DeBERTa, CodeBERT and GraphCodeBERT against the current best-performing tool SEntiMoji. Our analysis reveals consistent improvements ranging from 1.17% to 16.79% in terms of macro-averaged and micro-averaged F1 scores, with general domain models outperforming specialized ones. To further enhance PTMs, we incorporate polarity features in attention layer during training, demonstrating additional average gains of 1.0\% to 10.23\% over baseline PTMs approaches. Our work provides strong evidence for the advancements afforded by PTMs in recognizing nuanced emotions like Anger, Love, Fear, Joy, Sadness, and Surprise in software engineering contexts. Through comprehensive benchmarking and error analysis, we also outline scope for improvements to address contextual gaps.
翻訳日:2024-02-07 03:07:28 公開日:2024-02-03
# 多言語モデルにおける言語間編集

Cross-lingual Editing in Multilingual Language Models ( http://arxiv.org/abs/2401.10521v2 )

ライセンス: Link先を確認
Himanshu Beniwal, Kowsik Nandagopan D, Mayank Singh(参考訳) 大規模言語モデル (LLMs) の訓練には大量のデータと計算資源が必要であり、古い LLM の更新には多大な努力とリソースが必要である。 多くのモデル編集技術 (MET) が再訓練なしにモデル出力を効率的に更新するために出現しているが、知識が多様な言語に格納されている多言語LLMにおいての有効性は、まだ未調査の研究領域である。 本稿では,言語間モデル編集(\textbf{xme})のパラダイムについて紹介する。 BLOOM, mBERT, および XLM-RoBERTa を用いて, BLOOM と mBERT, および XLM-RoBERTa を用いて, 書字文字である \textit{Latin} (英語,フランス語,スペイン語) と \textit{Indic} (ヒンディー語, グジャラティ語, ベンガル語) を用いて実験を行った。 その結果,言語が2つの異なるスクリプトファミリーに属している場合,XME設定下での最先端のMETの性能制限が顕著であった。 これらの知見は、これらの課題に対処するXME技術のさらなる研究・開発の必要性を浮き彫りにしている。 より包括的な情報は、この研究で使用されるデータセットと関連するコードは、以下のurl\url{https://github.com/lingo-iitgn/xme}で公開されている。

The training of large language models (LLMs) necessitates substantial data and computational resources, and updating outdated LLMs entails significant efforts and resources. While numerous model editing techniques (METs) have emerged to efficiently update model outputs without retraining, their effectiveness in multilingual LLMs, where knowledge is stored in diverse languages, remains an underexplored research area. This research paper introduces the cross-lingual model editing (\textbf{XME}) paradigm, wherein a fact is edited in one language, and the subsequent update propagation is observed across other languages. To investigate the XME paradigm, we conducted experiments using BLOOM, mBERT, and XLM-RoBERTa using the two writing scripts: \textit{Latin} (English, French, and Spanish) and \textit{Indic} (Hindi, Gujarati, and Bengali). The results reveal notable performance limitations of state-of-the-art METs under the XME setting, mainly when the languages involved belong to two distinct script families. These findings highlight the need for further research and development of XME techniques to address these challenges. For more comprehensive information, the dataset used in this research and the associated code are publicly available at the following URL\url{https://github.com/lingo-iitgn/XME}.
翻訳日:2024-02-07 03:07:06 公開日:2024-02-03
# 知識グラフ駆動型推薦システムアルゴリズム

Knowledge Graph Driven Recommendation System Algorithm ( http://arxiv.org/abs/2401.10244v3 )

ライセンス: Link先を確認
Chaoyang Zhang, Yanan Li, Shen Chen, Siwei Fan, Wei Li(参考訳) 本稿では、知識グラフ(KG)情報を利用してパーソナライズされたレコメンデーションの精度と有効性を向上する、KGLNと呼ばれる新しいグラフニューラルネットワークベースのレコメンデーションモデルを提案する。 まず,単層ニューラルネットワークを用いてグラフ内の個々のノード特徴をマージし,影響因子を組み込むことで隣接エンティティの集約重みを調整した。 モデルは、イテレーションを通じて単一のレイヤから複数のレイヤへと進化し、エンティティが広範囲にわたるマルチオーダー関連エンティティ情報にアクセスできるようにする。 最後のステップでは、エンティティとユーザの機能を統合してレコメンデーションスコアを生成する。 モデルの性能は, 各種凝集法と影響因子の比較により評価した。 MovieLen-1M と Book-Crossing のデータセットに対するテストでは、KGLN は ROC 曲線 (AUC) の改善率 0.3% から 5.9% と 1.1% から 8.2% を示しており、これは LibFM、DeepFM、Wide&Deep、RippleNet といった既存のベンチマーク手法よりも優れている。

In this paper, we propose a novel graph neural network-based recommendation model called KGLN, which leverages Knowledge Graph (KG) information to enhance the accuracy and effectiveness of personalized recommendations. We first use a single-layer neural network to merge individual node features in the graph, and then adjust the aggregation weights of neighboring entities by incorporating influence factors. The model evolves from a single layer to multiple layers through iteration, enabling entities to access extensive multi-order associated entity information. The final step involves integrating features of entities and users to produce a recommendation score. The model performance was evaluated by comparing its effects on various aggregation methods and influence factors. In tests over the MovieLen-1M and Book-Crossing datasets, KGLN shows an Area Under the ROC curve (AUC) improvement of 0.3% to 5.9% and 1.1% to 8.2%, respectively, which is better than existing benchmark methods like LibFM, DeepFM, Wide&Deep, and RippleNet.
翻訳日:2024-02-07 03:06:39 公開日:2024-02-03
# 低高度空域認証管理のための工学フェアと等価ソフトウェアシステムを目指して

Towards Engineering Fair and Equitable Software Systems for Managing Low-Altitude Airspace Authorizations ( http://arxiv.org/abs/2401.07353v2 )

ライセンス: Link先を確認
Usman Gohar, Michael C. Hunter, Agnieszka Marczak-Czajka, Robyn R. Lutz, Myra B. Cohen, Jane Cleland-Huang(参考訳) 小型無人航空機システム(SUAS)は様々な用途に広く採用されている。 これにより、共有空域内の運用上の複雑さと報告されたインシデントの増加が導入され、安全性への懸念が高まっている。 これに対し、アメリカ連邦航空局(FAA)は、そのミッションを安全に完了させるSUASの予測能力に基づいて、空域へのアクセスを制御するUAS Traffic Management (UTM)システムを開発している。 しかし、飛行要求を迅速に承認または否定できる完全自動化システムはバイアスを起こしやすいため、多様な利害関係者にとって安全、透明性、公平性を考慮しなければならない。 本稿では,自動化システムにおいて考慮すべき要因について,利害関係者の視点を考察する最初の研究を行う。 その結果、飛行特性と環境条件が最も重要視されているが、パイロットとドローンの能力も考慮すべきである。 さらに、いくつかの回答者はAIをサポートする自動化への反対を示し、自動意思決定における完全な透明性の必要性を強調した。 結果は、UTM飛行認可決定の自動化の課題に関する社会的視点を提供し、より広範なsUASコミュニティに受け入れられる解決策の継続的な設計の枠組み化を支援する。

Small Unmanned Aircraft Systems (sUAS) have gained widespread adoption across a diverse range of applications. This has introduced operational complexities within shared airspaces and an increase in reported incidents, raising safety concerns. In response, the U.S. Federal Aviation Administration (FAA) is developing a UAS Traffic Management (UTM) system to control access to airspace based on an sUAS's predicted ability to safely complete its mission. However, a fully automated system capable of swiftly approving or denying flight requests can be prone to bias and must consider safety, transparency, and fairness to diverse stakeholders. In this paper, we present an initial study that explores stakeholders' perspectives on factors that should be considered in an automated system. Results indicate flight characteristics and environmental conditions were perceived as most important but pilot and drone capabilities should also be considered. Further, several respondents indicated an aversion to any AI-supported automation, highlighting the need for full transparency in automated decision-making. Results provide a societal perspective on the challenges of automating UTM flight authorization decisions and help frame the ongoing design of a solution acceptable to the broader sUAS community.
翻訳日:2024-02-07 03:03:36 公開日:2024-02-03
# 言語処理タスクとしてのパラメータ効率の良い会話レコメンダシステム

Parameter-Efficient Conversational Recommender System as a Language Processing Task ( http://arxiv.org/abs/2401.14194v2 )

ライセンス: Link先を確認
Mathieu Ravaut, Hao Zhang, Lu Xu, Aixin Sun, Yong Liu(参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの好みを抽出し,関連項目をユーザに推薦することを目的としている。 先行研究では、項目の意味情報に外部知識グラフ、対話生成のための言語モデル、関連する項目のランキングに推奨モジュールを用いることが多い。 この複数のコンポーネントの組み合わせは、面倒なトレーニングプロセスに悩まされ、対話生成とアイテムレコメンデーションのセマンティックなミスアライメント問題を引き起こす。 本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。 したがって、事前学習された言語モデルの力を利用して、アイテムをエンコードし、会話を通じてユーザの意図を理解し、セマンティックマッチングを通じてアイテムレコメンデーションを行い、対話を生成する。 統一モデルとして、知識グラフのような非テキストメタデータに頼ることなく、PECRS(Parameter-Efficient CRS)を単一段階で最適化することができる。 2つのベンチマークCRSデータセットであるReDialとINSPIREDの実験は、レコメンデーションと会話におけるPECRSの有効性を実証している。 私たちのコードは、https://github.com/ravoxsg/ efficient_unified_crsで利用可能です。

Conversational recommender systems (CRS) aim to recommend relevant items to users by eliciting user preference through natural language conversation. Prior work often utilizes external knowledge graphs for items' semantic information, a language model for dialogue generation, and a recommendation module for ranking relevant items. This combination of multiple components suffers from a cumbersome training process, and leads to semantic misalignment issues between dialogue generation and item recommendation. In this paper, we represent items in natural language and formulate CRS as a natural language processing task. Accordingly, we leverage the power of pre-trained language models to encode items, understand user intent via conversation, perform item recommendation through semantic matching, and generate dialogues. As a unified model, our PECRS (Parameter-Efficient CRS), can be optimized in a single stage, without relying on non-textual metadata such as a knowledge graph. Experiments on two benchmark CRS datasets, ReDial and INSPIRED, demonstrate the effectiveness of PECRS on recommendation and conversation. Our code is available at: https://github.com/Ravoxsg/efficient_unified_crs.
翻訳日:2024-02-07 02:55:59 公開日:2024-02-03
# 因子化勾配降下による低指数テンソル回復

Low-Tubal-Rank Tensor Recovery via Factorized Gradient Descent ( http://arxiv.org/abs/2401.11940v2 )

ライセンス: Link先を確認
Zhiyu Liu, Zhi Han, Yandong Tang, Xi-Le Zhao, Yao Wang(参考訳) 本稿では, 少数の線形測定結果から, 基礎となる低ツバルランク構造を持つテンソルを復元する問題を考察する。 このような問題に取り組む従来のアプローチでは、計算集約的なプロセスであるテンソル特異値分解(t-svd)の計算が必要であり、大規模なテンソルを扱うには実用的ではない。 そこで本研究では,burer-monteiro (bm) 法に類似した因子分解法に基づく効率的かつ効率的な低指数テンソル回復法を提案する。 正確には、我々の基本的なアプローチは、大きなテンソルを2つの小さな因子テンソルに分解し、次に分解勾配降下(FGD)によって問題を解くことである。 この戦略はt-svd計算の必要性をなくし、計算コストとストレージ要件を削減する。 我々は,FGDのノイズフリーおよび雑音条件下での収束を確保するために厳密な理論的解析を行う。 さらに,本手法はテンソル管ランクの正確な推定を必要としないことに注意が必要である。 管状ランクがわずかに過大評価されている場合でも,我々の手法は頑健な性能を示し続けている。 提案手法は,他の一般的な手法と比較して,高速な計算速度とより小さい収束誤差の観点から,複数のシナリオにおいて優れた性能を示すことを示すために,一連の実験が実施されている。

This paper considers the problem of recovering a tensor with an underlying low-tubal-rank structure from a small number of corrupted linear measurements. Traditional approaches tackling such a problem require the computation of tensor Singular Value Decomposition (t-SVD), that is a computationally intensive process, rendering them impractical for dealing with large-scale tensors. Aim to address this challenge, we propose an efficient and effective low-tubal-rank tensor recovery method based on a factorization procedure akin to the Burer-Monteiro (BM) method. Precisely, our fundamental approach involves decomposing a large tensor into two smaller factor tensors, followed by solving the problem through factorized gradient descent (FGD). This strategy eliminates the need for t-SVD computation, thereby reducing computational costs and storage requirements. We provide rigorous theoretical analysis to ensure the convergence of FGD under both noise-free and noisy situations. Additionally, it is worth noting that our method does not require the precise estimation of the tensor tubal-rank. Even in cases where the tubal-rank is slightly overestimated, our approach continues to demonstrate robust performance. A series of experiments have been carried out to demonstrate that, as compared to other popular ones, our approach exhibits superior performance in multiple scenarios, in terms of the faster computational speed and the smaller convergence error.
翻訳日:2024-02-07 02:53:11 公開日:2024-02-03
# 大きければ大きいほどいいのか? 長期時系列予測における有効モデル尺度の再検討

The Bigger the Better? Rethinking the Effective Model Scale in Long-term Time Series Forecasting ( http://arxiv.org/abs/2401.11929v2 )

ライセンス: Link先を確認
Jinliang Deng, Xuan Song, Ivor W. Tsang, Hui Xiong(参考訳) 長期時系列予測(LTSF)は、伝統的なアプローチに典型的な制約付き長さとは対照的に、広範囲な入力シーケンスに焦点を当てた時系列解析において重要なフロンティアである。 長いシーケンスは本質的によりリッチな情報を伝達するが、予測精度を向上させる可能性がある。 これらの複雑なモデルは数百万のパラメータに膨らみ込み、位置エンコーディング、フィードフォワードネットワーク、セルフアテンション機構といったパラメータ集約的な要素が組み込まれます。 しかし、この複雑さは、特に時系列データの意味的単純さを考えると、モデルスケールの禁止につながる。 parsimonyの追求に動機づけられた本研究は,条件付き相関と自己相関を調査ツールとして活用し,入力データに有意な冗長性を示す。 これらの知見を活かして,階層的分解により拡張された軽量トランスフォーマであるhdformerを紹介する。 この新しいアーキテクチャは、モデル拡張に向けた一般的な傾向を逆転させるだけでなく、計算やパラメータを劇的に少なくした正確な予測も達成している。 注目すべきは、HDformerが既存のLTSFモデルより優れており、パラメータは99.%以上少ないことだ。 この研究を通じて、LTSFのパラダイムシフトを提唱し、時系列データの本質的なダイナミクスにモデルを合わせることの重要性を強調します。

Long-term time series forecasting (LTSF) represents a critical frontier in time series analysis, distinguished by its focus on extensive input sequences, in contrast to the constrained lengths typical of traditional approaches. While longer sequences inherently convey richer information, potentially enhancing predictive precision, prevailing techniques often respond by escalating model complexity. These intricate models can inflate into millions of parameters, incorporating parameter-intensive elements like positional encodings, feed-forward networks and self-attention mechanisms. This complexity, however, leads to prohibitive model scale, particularly given the time series data's semantic simplicity. Motivated by the pursuit of parsimony, our research employs conditional correlation and auto-correlation as investigative tools, revealing significant redundancies within the input data. Leveraging these insights, we introduce the HDformer, a lightweight Transformer variant enhanced with hierarchical decomposition. This novel architecture not only inverts the prevailing trend toward model expansion but also accomplishes precise forecasting with drastically fewer computations and parameters. Remarkably, HDformer outperforms existing state-of-the-art LTSF models, while requiring over 99\% fewer parameters. Through this work, we advocate a paradigm shift in LTSF, emphasizing the importance to tailor the model to the inherent dynamics of time series data-a timely reminder that in the realm of LTSF, bigger is not invariably better.
翻訳日:2024-02-07 02:52:48 公開日:2024-02-03
# ContactGen: コンタクトガイドによる対話型3Dヒューマンジェネレーション

ContactGen: Contact-Guided Interactive 3D Human Generation for Partners ( http://arxiv.org/abs/2401.17212v2 )

ライセンス: Link先を確認
Dongjun Gu, Jaehyeok Shim, Jaehoon Jang, Changwoo Kang, Kyungdon Joo(参考訳) 目の接触やジェスチャーなど、人間同士のさまざまな相互作用の中で、接触による物理的相互作用は人間の行動を理解する上で不可欠な瞬間となる。 この事実に触発されて、所望のインタラクションラベルを持つ3Dパートナーが、物理的接触の観点から3Dヒューマン生成の新たなタスクを導入する。 静的な物体やシーンと相互作用する以前の作品とは異なり、あるパートナーの人間は、相互作用の種類に応じて様々なポーズと異なる接触領域を持つことができる。 そこで本稿では,この課題に対処するために,誘導拡散フレームワークを用いた対話型3次元人間生成手法を提案する。 具体的には,対話ラベルに従って2人の入力人間間の潜在的接触領域を適応的に推定する接触予測モジュールを提案する。 推定された接触領域を相補的指導として使用することにより, 誘導拡散モデルにおいて, 接触遺伝子を動的に強制し, 相手人間の対話的3d人間を生成する。 CHI3Dデータセット上でContactGenを実演し、本手法は比較法と比較して物理的に妥当で多様なポーズを生成する。

Among various interactions between humans, such as eye contact and gestures, physical interactions by contact can act as an essential moment in understanding human behaviors. Inspired by this fact, given a 3D partner human with the desired interaction label, we introduce a new task of 3D human generation in terms of physical contact. Unlike previous works of interacting with static objects or scenes, a given partner human can have diverse poses and different contact regions according to the type of interaction. To handle this challenge, we propose a novel method of generating interactive 3D humans for a given partner human based on a guided diffusion framework. Specifically, we newly present a contact prediction module that adaptively estimates potential contact regions between two input humans according to the interaction label. Using the estimated potential contact regions as complementary guidances, we dynamically enforce ContactGen to generate interactive 3D humans for a given partner human within a guided diffusion model. We demonstrate ContactGen on the CHI3D dataset, where our method generates physically plausible and diverse poses compared to comparison methods.
翻訳日:2024-02-07 02:29:43 公開日:2024-02-03
# 関連言語からの言語間移動:多言語コードスイッチングとしての低リソースマルタ処理

Cross-Lingual Transfer from Related Languages: Treating Low-Resource Maltese as Multilingual Code-Switching ( http://arxiv.org/abs/2401.16895v2 )

ライセンス: Link先を確認
Kurt Micallef, Nizar Habash, Claudia Borg, Fadhl Eryani, Houda Bouamor(参考訳) 多言語言語モデルは、未熟な言語で印象的な言語間転送能力を示すが、多言語モデルの事前学習データで使用される言語とスクリプトの相違がある場合、下流タスクのパフォーマンスは影響を受ける。 翻訳を使用することは、リソース豊富な言語のスクリプトをターゲット言語に整合させる、単純かつ効果的な手段を提供する。 しかし、混合言語では、言語の一部だけが言語間移動の恩恵を受け、残りは妨げられるため、このアプローチは準最適である。 この本では、アラビア語、イタリア語、英語から多大な影響を受け、特にラテン文字で書かれたセム語であるマルタ語に焦点を当てている。 単語レベルの語源を付加した新しいデータセットを提案する。 このデータセットを使用して分類器をトレーニングし、マルタ語における各トークンの適切な処理に関する情報決定を可能にする。 我々は、アラビア語起源の単語のみを翻訳する混合処理パイプラインと無差別な翻訳や翻訳を対比し、結果としてテキストとスクリプトの混合を生じさせる。 我々は,4つの下流タスクの処理データを微調整し,単語の語源に基づく条件翻訳が,非選択的パイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果をもたらすことを示す。

Although multilingual language models exhibit impressive cross-lingual transfer capabilities on unseen languages, the performance on downstream tasks is impacted when there is a script disparity with the languages used in the multilingual model's pre-training data. Using transliteration offers a straightforward yet effective means to align the script of a resource-rich language with a target language, thereby enhancing cross-lingual transfer capabilities. However, for mixed languages, this approach is suboptimal, since only a subset of the language benefits from the cross-lingual transfer while the remainder is impeded. In this work, we focus on Maltese, a Semitic language, with substantial influences from Arabic, Italian, and English, and notably written in Latin script. We present a novel dataset annotated with word-level etymology. We use this dataset to train a classifier that enables us to make informed decisions regarding the appropriate processing of each token in the Maltese language. We contrast indiscriminate transliteration or translation to mixing processing pipelines that only transliterate words of Arabic origin, thereby resulting in text with a mixture of scripts. We fine-tune the processed data on four downstream tasks and show that conditional transliteration based on word etymology yields the best results, surpassing fine-tuning with raw Maltese or Maltese processed with non-selective pipelines.
翻訳日:2024-02-07 02:29:06 公開日:2024-02-03
# 拡張表現による時間統計空間事前の符号化

Encoding Temporal Statistical-space Priors via Augmented Representation ( http://arxiv.org/abs/2401.16808v2 )

ライセンス: Link先を確認
Insu Choi, Woosung Koh, Gimin Kang, Yuntae Jang, Woo Chang Kim(参考訳) 時系列データのモデリングは、時間次元が多くの領域に固有のため、広範に問題となる。 時系列予測において大きな進歩があったにもかかわらず、高ノイズと信号比、非正規性、非定常性、データ不足は引き続き挑戦的な実践者である。 これに対して,これらの課題を克服するために,単純な表現拡張手法を活用する。 我々の拡張表現は、各時間ステップでエンコードされる統計空間として機能する。 そこで我々は,統計的空間拡張表現法 (SSAR) を考案した。 基礎となる高次元データ生成プロセスは、表現の強化を促します。 2つのダウンストリーム時間学習アルゴリズムを用いた2つのデータセットにおける経験的一般化性能を厳密に検討した。 私たちのアプローチは、最新の5つのベースラインを大きく上回っています。 さらに、このアプローチの高度にモジュール化された性質は、様々な設定に容易に適用できる。 最後に、完全に確立された理論的な視点は、明確で厳密な理解のために、執筆全体を通して利用可能である。

Modeling time series data remains a pervasive issue as the temporal dimension is inherent to numerous domains. Despite significant strides in time series forecasting, high noise-to-signal ratio, non-normality, non-stationarity, and lack of data continue challenging practitioners. In response, we leverage a simple representation augmentation technique to overcome these challenges. Our augmented representation acts as a statistical-space prior encoded at each time step. In response, we name our method Statistical-space Augmented Representation (SSAR). The underlying high-dimensional data-generating process inspires our representation augmentation. We rigorously examine the empirical generalization performance on two data sets with two downstream temporal learning algorithms. Our approach significantly beats all five up-to-date baselines. Moreover, the highly modular nature of our approach can easily be applied to various settings. Lastly, fully-fledged theoretical perspectives are available throughout the writing for a clear and rigorous understanding.
翻訳日:2024-02-07 02:28:14 公開日:2024-02-03
# Context-Former:潜時条件付きシーケンスモデリングによるスタンディング

Context-Former: Stitching via Latent Conditioned Sequence Modeling ( http://arxiv.org/abs/2401.16452v2 )

ライセンス: Link先を確認
Ziqi Zhang, Jingzehua Xu, Jinxin Liu, Zifeng Zhuang, Donglin Wang(参考訳) オフライン強化学習(rl)アルゴリズムは、サブ最適軌道を縫い合わせることによって、より最適なものを得る。 この能力は、RLが行動ポリシーよりも優れたポリシーを学習できるようにする上で重要な要素である。 一方、決定変換器(DT)は、決定をシーケンスモデリングとして抽象化し、オフラインのRLベンチマーク上での競合性能を示すが、最近の研究では、DTは縫合能力に欠けており、DTの縫合能力を活用することは、その性能をさらに向上するために不可欠である。 dtに縫い付け能力を与えるため,ストレッチステッチをエキスパートマッチングとして抽象化し,コンテキスト情報に基づく模倣学習(il)とシーケンスモデリングを統合し,限られた数のエキスパートトラジェクタの表現をエミュレートし,準最適軌道フラグメントを縫合するcontextformerを提案する。 主張を検証するために、我々は2つの視点から実験を行う。 1)ilの設定下でd4rlベンチマークを広範囲に実験し,マルチil環境でのコンテクストフォーマーの競争力を実証した。 2)さらに重要なことは、同じトレーニングデータセットを使用して、ContextFormerと多様な競合DTの変種を比較することである。 実験の結果、コンテクストフォーマーの優位性が他の全ての派生型を上回り、その優れた性能を示した。

Offline reinforcement learning (RL) algorithms can improve the decision making via stitching sub-optimal trajectories to obtain more optimal ones. This capability is a crucial factor in enabling RL to learn policies that are superior to the behavioral policy. On the other hand, Decision Transformer (DT) abstracts the decision-making as sequence modeling, showcasing competitive performance on offline RL benchmarks, however, recent studies demonstrate that DT lacks of stitching capability, thus exploit stitching capability for DT is vital to further improve its performance. In order to endow stitching capability to DT, we abstract trajectory stitching as expert matching and introduce our approach, ContextFormer, which integrates contextual information-based imitation learning (IL) and sequence modeling to stitch sub-optimal trajectory fragments by emulating the representations of a limited number of expert trajectories. To validate our claim, we conduct experiments from two perspectives: 1) We conduct extensive experiments on D4RL benchmarks under the settings of IL, and experimental results demonstrate ContextFormer can achieve competitive performance in multi-IL settings. 2) More importantly, we conduct a comparison of ContextFormer with diverse competitive DT variants using identical training datasets. The experimental results unveiled ContextFormer's superiority, as it outperformed all other variants, showcasing its remarkable performance.
翻訳日:2024-02-07 02:28:03 公開日:2024-02-03
# マルコフ決定過程を用いた産業機械の最適タスク割り当てと予測メンテナンス

Optimized Task Assignment and Predictive Maintenance for Industrial Machines using Markov Decision Process ( http://arxiv.org/abs/2402.00042v2 )

ライセンス: Link先を確認
Ali Nasir, Samir Mekid, Zaid Sawlan, Omar Alsawafy(参考訳) 本稿では,タスク割り当てと条件に基づく機械の健康維持のための分散意思決定手法について考察する。 本手法では,タスク割り当てと健康管理意思決定エージェント間の情報共有について検討する。 マルコフ決定過程に基づく意思決定エージェントの設計を提案する。 マルコフ決定プロセスに基づくアプローチを使う主な利点は、意思決定プロセスに不確実性が組み入れられることである。 本論文は, 実用的実行戦略とともに, 詳細な数学的モデルを提供する。 提案手法の有効性と実用性を実証するために,オープンソースミル加工機械ツール劣化データに基づく詳細な数値ケーススタディを含む。 本研究は,提案手法がコストパラメータの選択に関して柔軟性を提供し,意思決定方針のオフライン計算と分析を可能にすることを示す。 これらの特徴は、人工知能を用いた提案モデルに付随するコストパラメータの学習における将来の取り組みの創出と機会である。

This paper considers a distributed decision-making approach for manufacturing task assignment and condition-based machine health maintenance. Our approach considers information sharing between the task assignment and health management decision-making agents. We propose the design of the decision-making agents based on Markov decision processes. The key advantage of using a Markov decision process-based approach is the incorporation of uncertainty involved in the decision-making process. The paper provides detailed mathematical models along with the associated practical execution strategy. In order to demonstrate the effectiveness and practical applicability of our proposed approach, we have included a detailed numerical case study that is based on open source milling machine tool degradation data. Our case study indicates that the proposed approach offers flexibility in terms of the selection of cost parameters and it allows for offline computation and analysis of the decision-making policy. These features create and opportunity for the future work on learning of the cost parameters associated with our proposed model using artificial intelligence.
翻訳日:2024-02-07 02:16:02 公開日:2024-02-03
# EEG-GPT:脳波分類と解釈のための大規模言語モデルの能力探索

EEG-GPT: Exploring Capabilities of Large Language Models for EEG Classification and Interpretation ( http://arxiv.org/abs/2401.18006v2 )

ライセンス: Link先を確認
Jonathan W. Kim and Ahmed Alaa and Danilo Bernardo(参考訳) 脳波(EEG)に適用される従来の機械学習(ML)アプローチでは、これはしばしば限定的な焦点であり、異なる時間スケール(ミリ秒の過渡的なスパイクから持続する発作まで)と空間スケール(局所的な高周波振動から世界的な睡眠活動まで)で発生する特定の脳活動の分離である。 このサイロ化アプローチは、マルチスケールの電気生理学的理解と分類能力を示す脳波MLモデルの開発を制限する。 さらに、典型的なML EEGアプローチはブラックボックスアプローチを使用し、臨床コンテキストにおける解釈可能性と信頼性を制限する。 そこで我々は,大言語モデル(LLM)の進歩を利用する脳波分類の一元化手法であるEEG-GPTを提案する。 eeg-gptは、トレーニングデータの2%しか利用しない少数の学習パラダイムにおいて、異常脳波から正常を分類する現在のディープラーニング手法に匹敵する優れた性能を達成している。 さらに、中間的推論ステップを提供し、その操作において複数のスケールにわたる専門的脳波ツールを調整し、透過的で解釈可能なステップバイステップの検証を提供し、臨床的文脈における信頼性を促進するという明確な利点を提供する。

In conventional machine learning (ML) approaches applied to electroencephalography (EEG), this is often a limited focus, isolating specific brain activities occurring across disparate temporal scales (from transient spikes in milliseconds to seizures lasting minutes) and spatial scales (from localized high-frequency oscillations to global sleep activity). This siloed approach limits the development EEG ML models that exhibit multi-scale electrophysiological understanding and classification capabilities. Moreover, typical ML EEG approaches utilize black-box approaches, limiting their interpretability and trustworthiness in clinical contexts. Thus, we propose EEG-GPT, a unifying approach to EEG classification that leverages advances in large language models (LLM). EEG-GPT achieves excellent performance comparable to current state-of-the-art deep learning methods in classifying normal from abnormal EEG in a few-shot learning paradigm utilizing only 2% of training data. Furthermore, it offers the distinct advantages of providing intermediate reasoning steps and coordinating specialist EEG tools across multiple scales in its operation, offering transparent and interpretable step-by-step verification, thereby promoting trustworthiness in clinical contexts.
翻訳日:2024-02-07 02:15:28 公開日:2024-02-03
# コンテキスト対応マルチエージェントシステムに関する調査研究:技術,課題,今後の方向性

A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions ( http://arxiv.org/abs/2402.01968v1 )

ライセンス: Link先を確認
Hung Du, Srikanth Thudumu, Rajesh Vasa and Kon Mouzakis(参考訳) 自律エージェントに対する研究の関心は、新興のトピックとして高まっている。 LLM(Large Language Models)の顕著な成果は、自律エージェントにおいて人間のような知性を達成できる可能性を示している。 しかしながら、これらのエージェントが動的環境における不確実性を学び、推論し、ナビゲートすることを可能にすることが課題である。 コンテキスト認識は、動的状況を扱う際にマルチエージェントシステムを強化する上で重要な要素として現れます。 文脈認識システムとマルチエージェントシステムの両方に焦点を当てた既存の研究にもかかわらず、コンテキスト認識システムとマルチエージェントシステムを統合するための総合的な調査方法が欠如している。 このギャップに対処するため、この調査は最先端のコンテキスト対応マルチエージェントシステムの概要を提供する。 まず,これらのシステム間の統合を容易にするコンテキスト認識システムとマルチエージェントシステムの特性について概説する。 次に,自律運転における衝突回避,防災管理,ユーティリティ管理,サプライチェーン管理,人間とAIのインタラクションなど,さまざまなアプリケーション領域から引き出された多様なアプローチを含む,コンテキスト認識システムのための一般的なプロセスを提案する。 最後に,コンテキスト認識型マルチエージェントシステムの課題について論じ,今後の研究方向性について述べる。

Research interest in autonomous agents is on the rise as an emerging topic. The notable achievements of Large Language Models (LLMs) have demonstrated the considerable potential to attain human-like intelligence in autonomous agents. However, the challenge lies in enabling these agents to learn, reason, and navigate uncertainties in dynamic environments. Context awareness emerges as a pivotal element in fortifying multi-agent systems when dealing with dynamic situations. Despite existing research focusing on both context-aware systems and multi-agent systems, there is a lack of comprehensive surveys outlining techniques for integrating context-aware systems with multi-agent systems. To address this gap, this survey provides a comprehensive overview of state-of-the-art context-aware multi-agent systems. First, we outline the properties of both context-aware systems and multi-agent systems that facilitate integration between these systems. Subsequently, we propose a general process for context-aware systems, with each phase of the process encompassing diverse approaches drawn from various application domains such as collision avoidance in autonomous driving, disaster relief management, utility management, supply chain management, human-AI interaction, and others. Finally, we discuss the existing challenges of context-aware multi-agent systems and provide future research directions in this field.
翻訳日:2024-02-06 23:16:29 公開日:2024-02-03
# マルチモーダルヘイト音声イベント検出2024におけるMasonPerplexity:トランスフォーマーアンサンブルを用いたヘイトスピーチとターゲット検出

MasonPerplexity at Multimodal Hate Speech Event Detection 2024: Hate Speech and Target Detection Using Transformer Ensembles ( http://arxiv.org/abs/2402.01967v1 )

ライセンス: Link先を確認
Amrita Ganguly, Al Nahian Bin Emran, Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Dhiman Goswami, Marcos Zampieri(参考訳) ヘイトスピーチのような攻撃的言語の自動識別は、オンラインコミュニティにおける議論を公にする上で重要である。 マルチモーダルコンテンツにおけるヘイトスピーチの識別は、単語または画像のいずれかに攻撃性が現れるか、あるいはこれら2つの曖昧さが顕在化できるため、特に難しい課題である。 本稿では,EACL 2024のケース2024におけるマルチモーダルヘイト音声イベント検出における共有タスクに対するMasonPerplexityの提出について述べる。 タスクは2つのサブタスクに分けられる: サブタスクAはヘイトスピーチの識別に焦点を当て、サブタスクBは政治イベント中のテキスト埋め込み画像におけるターゲットの識別に焦点を当てる。 我々は,サブタスクAにXLM-roBERTa-largeモデル,サブタスクBにXLM-roBERTa-base,BERTweet-large,BERT-baseを組み合わせたアンサンブルアプローチを用い,サブタスクAに0.8347F1スコア,サブタスクBに0.6741F1スコアを得た。

The automatic identification of offensive language such as hate speech is important to keep discussions civil in online communities. Identifying hate speech in multimodal content is a particularly challenging task because offensiveness can be manifested in either words or images or a juxtaposition of the two. This paper presents the MasonPerplexity submission for the Shared Task on Multimodal Hate Speech Event Detection at CASE 2024 at EACL 2024. The task is divided into two sub-tasks: sub-task A focuses on the identification of hate speech and sub-task B focuses on the identification of targets in text-embedded images during political events. We use an XLM-roBERTa-large model for sub-task A and an ensemble approach combining XLM-roBERTa-base, BERTweet-large, and BERT-base for sub-task B. Our approach obtained 0.8347 F1-score in sub-task A and 0.6741 F1-score in sub-task B ranking 3rd on both sub-tasks.
翻訳日:2024-02-06 23:16:07 公開日:2024-02-03
# 凸最適化によるニューラルネットワークに基づく生成拡散モデルの解析

Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization ( http://arxiv.org/abs/2402.01965v1 )

ライセンス: Link先を確認
Fangzhao Zhang, Mert Pilanci(参考訳) 拡散モデルは最先端の画像、ビデオ、オーディオ生成で広く使われている。 スコアに基づく拡散モデルは,入力データ分布のスコア関数の推定を必要とし,これらの手法の中で際立っている。 本研究では,2層ニューラルネットワークを用いた拡散モデルの解析のための理論的枠組みを提案する。 既存の拡散理論は主に漸近的であるが、正確な予測スコア関数を特徴付け、有限データを用いたニューラルネットワークに基づく拡散モデルの収束結果を確立する。 この研究は、非漸近的な環境でニューラルネットワークベースの拡散モデルが何を学ぶかを理解するのに役立つ。

Diffusion models are becoming widely used in state-of-the-art image, video and audio generation. Score-based diffusion models stand out among these methods, necessitating the estimation of score function of the input data distribution. In this study, we present a theoretical framework to analyze two-layer neural network-based diffusion models by reframing score matching and denoising score matching as convex optimization. Though existing diffusion theory is mainly asymptotic, we characterize the exact predicted score function and establish the convergence result for neural network-based diffusion models with finite data. This work contributes to understanding what neural network-based diffusion model learns in non-asymptotic settings.
翻訳日:2024-02-06 23:15:45 公開日:2024-02-03
# 振り返る必要がない: 時間的ネットワーク表現学習のための効率的でスケーラブルなアプローチ

No Need to Look Back: An Efficient and Scalable Approach for Temporal Network Representation Learning ( http://arxiv.org/abs/2402.01964v1 )

ライセンス: Link先を確認
Yuhong Luo and Pan Li(参考訳) 時間グラフ表現学習(TGRL)は,実世界のネットワークにおける複雑な動的システムのモデリングに不可欠である。 従来のtgrlメソッドは有効ではあるが、高い計算要求と推論遅延に苦しむ。 これは主に、モデル推論を行う際に各ノードの相互作用履歴をバックトラックすることで、時間的近傍の非効率的なサンプリングによって引き起こされる。 本稿では,新しい効率的なTGRLフレームワークであるNo-Looking-Back(NLB)を紹介する。 NLBは「前向きの最近のサンプリング」戦略を採用しており、歴史的相互作用のバックトラックの必要性を回避している。 この戦略は、各ノードに対してGPU実行可能なサイズ制約付きハッシュテーブルを使用して実装され、ダウンサンプリングされた最近のインタラクションを記録し、最小の推論レイテンシを持つクエリへの迅速な応答を可能にする。 このハッシュテーブルのメンテナンスは非常に効率的で、$O(1)$の複雑さがある。 NLBはGPU処理と完全に互換性があり、プログラム可能性、並列性、電力効率を最大化する。 実証的な評価では、NLBは6つの実世界のデータセット間のリンク予測とノード分類の精度において最先端の手法と一致または超越している。 重要なことに、トレーニングの高速化は 1.32-4.40 $\times$、エネルギー効率は 1.2-7.94 $\times$、推論遅延の低減は 1.97-5.02 $\times$ である。 コードへのリンクは:https://github.com/Graph-COM/NLB。

Temporal graph representation learning (TGRL) is crucial for modeling complex, dynamic systems in real-world networks. Traditional TGRL methods, though effective, suffer from high computational demands and inference latency. This is mainly induced by their inefficient sampling of temporal neighbors by backtracking the interaction history of each node when making model inference. This paper introduces a novel efficient TGRL framework, No-Looking-Back (NLB). NLB employs a "forward recent sampling" strategy, which bypasses the need for backtracking historical interactions. This strategy is implemented using a GPU-executable size-constrained hash table for each node, recording down-sampled recent interactions, which enables rapid response to queries with minimal inference latency. The maintenance of this hash table is highly efficient, with $O(1)$ complexity. NLB is fully compatible with GPU processing, maximizing programmability, parallelism, and power efficiency. Empirical evaluations demonstrate that NLB matches or surpasses state-of-the-art methods in accuracy for link prediction and node classification across six real-world datasets. Significantly, it is 1.32-4.40 $\times$ faster in training, 1.2-7.94 $\times$ more energy efficient, and 1.97-5.02 $\times$ more effective in reducing inference latency compared to the most competitive baselines. The link to the code: https://github.com/Graph-COM/NLB.
翻訳日:2024-02-06 23:15:36 公開日:2024-02-03
# ラベルオートエンコーダによる大規模k-nearest近傍テキスト分類の改善

Improving Large-Scale k-Nearest Neighbor Text Categorization with Label Autoencoders ( http://arxiv.org/abs/2402.01963v1 )

ライセンス: Link先を確認
Francisco J. Ribadas-Pena, Shuyuan Cao, V\'ictor M. Darriba Bilbao(参考訳) 本稿では,ラベル間相関の高い複雑なラベル語彙の存在下で,大規模文書コレクションの自動意味索引付けを扱うマルチラベル遅延学習手法を提案する。 提案手法は従来のk-Nearest Neighborsアルゴリズムの進化であり,大容量のラベル空間を縮小されたラテント空間にマッピングし,予測されたラベルをこのラテント空間から再生するように訓練された大オートエンコーダを用いる。 mesh(medical subject headings)シソーラスを制御語彙として用いたmedline biomedical document collectionにおいて,本提案の有効性を評価した。 実験では,複数の文書表現手法と異なるラベル自動エンコーダ構成を提案し評価した。

In this paper, we introduce a multi-label lazy learning approach to deal with automatic semantic indexing in large document collections in the presence of complex and structured label vocabularies with high inter-label correlation. The proposed method is an evolution of the traditional k-Nearest Neighbors algorithm which uses a large autoencoder trained to map the large label space to a reduced size latent space and to regenerate the predicted labels from this latent space. We have evaluated our proposal in a large portion of the MEDLINE biomedical document collection which uses the Medical Subject Headings (MeSH) thesaurus as a controlled vocabulary. In our experiments we propose and evaluate several document representation approaches and different label autoencoder configurations.
翻訳日:2024-02-06 23:15:12 公開日:2024-02-03
# トポロジーインフォームドグラフトランス

Topology-Informed Graph Transformer ( http://arxiv.org/abs/2402.02005v1 )

ライセンス: Link先を確認
Yun Young Choi, Sun Woo Park, Minho Lee, Youngho Woo(参考訳) トランスフォーマーは自然言語処理とビジョンのパフォーマンスに革命をもたらし、グラフニューラルネットワーク(GNN)との統合の道を開いた。 グラフ変換器の強化における重要な課題の1つは、グラフの同型を区別する識別力を強化することである。 この課題に対処するために、グラフ同型の検出における識別能力とグラフトランスの全体的な性能を高める新しいトランスである「トポロジーインフォームドグラフトランスフォーマー(tigt)」を紹介する。 TIGTは4つの構成要素から構成される: 非同型普遍被覆を用いたトポロジカルな位置埋め込み層は、グラフの巡回部分グラフに基づいて、ユニークなグラフ表現を保証する: エンコーダ層全体のトポロジ的特徴を明示的にエンコードするデュアルパスメッセージパス層: グローバルアテンション機構: チャネルワイドグラフ特徴をより優れた特徴表現のために再分類するグラフ情報層。 TIGTは、グラフの同型クラスを識別することを目的とした合成データセットの分類において、従来のグラフ変換器よりも優れている。 さらに、数学的解析と経験的評価は、さまざまなベンチマークデータセットにわたる最先端のグラフトランスフォーマーに対する我々のモデルの競合するエッジを強調します。

Transformers have revolutionized performance in Natural Language Processing and Vision, paving the way for their integration with Graph Neural Networks (GNNs). One key challenge in enhancing graph transformers is strengthening the discriminative power of distinguishing isomorphisms of graphs, which plays a crucial role in boosting their predictive performances. To address this challenge, we introduce 'Topology-Informed Graph Transformer (TIGT)', a novel transformer enhancing both discriminative power in detecting graph isomorphisms and the overall performance of Graph Transformers. TIGT consists of four components: A topological positional embedding layer using non-isomorphic universal covers based on cyclic subgraphs of graphs to ensure unique graph representation: A dual-path message-passing layer to explicitly encode topological characteristics throughout the encoder layers: A global attention mechanism: And a graph information layer to recalibrate channel-wise graph features for better feature representation. TIGT outperforms previous Graph Transformers in classifying synthetic dataset aimed at distinguishing isomorphism classes of graphs. Additionally, mathematical analysis and empirical evaluations highlight our model's competitive edge over state-of-the-art Graph Transformers across various benchmark datasets.
翻訳日:2024-02-06 23:05:53 公開日:2024-02-03
# genface: 大規模きめ細かい顔偽造ベンチマークとクロスルックエッジ学習

GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning ( http://arxiv.org/abs/2402.02003v1 )

ライセンス: Link先を確認
Yaning Zhang, Zitong Yu, Xiaobin Huang, Linlin Shen, Jianfeng Ren(参考訳) フォトリアリスティック・ジェネレータの急速な進歩は、本物の画像と操作された画像の差がますます区別不能となる臨界点に達している。 したがって、デジタル操作を検出するためのベンチマークおよびプログレッシブ技術が緊急課題となる。 公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を使用して生成され、拡散のような最新の技術は含まない。 拡散モデルにより生成された画像の多様性と品質は著しく改善され、SOTA偽造検出文献を評価するために、より困難な顔偽造データセットが使用される。 本稿では,拡散ベースモデルなどの先進的生成装置が生成する多数の偽造顔を含む,ディープフェイク検出の進展を促進するために,大規模で多様で精細な高忠実度データセットであるgenfaceを提案する。 ベンチマーク上でのSOTAアプローチの評価に加えて,多粒度な外見とエッジグローバルな表現を抽出し,識別的および一般的な偽トレースを検出する,革新的なクロスルックアップ・エッジ・ラーニング(CAEL)検出器を設計する。 さらに,2つの領域にまたがる様々な統合を探索するために,外観エッジ・クロスアテンション(AECA)モジュールを考案した。 広範な実験結果と可視化結果から,検出モデルは,クロスジェネレータやクロスフォーミング,クロスデータセット評価など,さまざまな設定において,芸術の状態を上回っていることが示された。 コードとデータセットは \url{https://github.com/Jenine-321/GenFace で入手できる。

The rapid advancement of photorealistic generators has reached a critical juncture where the discrepancy between authentic and manipulated images is increasingly indistinguishable. Thus, benchmarking and advancing techniques detecting digital manipulation become an urgent issue. Although there have been a number of publicly available face forgery datasets, the forgery faces are mostly generated using GAN-based synthesis technology, which does not involve the most recent technologies like diffusion. The diversity and quality of images generated by diffusion models have been significantly improved and thus a much more challenging face forgery dataset shall be used to evaluate SOTA forgery detection literature. In this paper, we propose a large-scale, diverse, and fine-grained high-fidelity dataset, namely GenFace, to facilitate the advancement of deepfake detection, which contains a large number of forgery faces generated by advanced generators such as the diffusion-based model and more detailed labels about the manipulation approaches and adopted generators. In addition to evaluating SOTA approaches on our benchmark, we design an innovative cross appearance-edge learning (CAEL) detector to capture multi-grained appearance and edge global representations, and detect discriminative and general forgery traces. Moreover, we devise an appearance-edge cross-attention (AECA) module to explore the various integrations across two domains. Extensive experiment results and visualizations show that our detection model outperforms the state of the arts on different settings like cross-generator, cross-forgery, and cross-dataset evaluations. Code and datasets will be available at \url{https://github.com/Jenine-321/GenFace
翻訳日:2024-02-06 23:04:49 公開日:2024-02-03
# グラフ凝縮に関する調査

A Survey on Graph Condensation ( http://arxiv.org/abs/2402.02000v1 )

ライセンス: Link先を確認
Hongjia Xu, Liangliang Zhang, Yao Ma, Sheng Zhou, Zhuonan Zheng, Bu Jiajun(参考訳) 大規模グラフの分析は、計算効率とリソース要件に重大な課題をもたらした。 近年,グラフデータの増大に伴う課題を解決するソリューションとして,グラフ凝縮(gc)が登場している。 GCの動機は、ダウンストリームタスクに不可欠な情報を保持しながら、大きなグラフのスケールを小さくすることです。 GCをよりよく理解し、他の関連するトピックと区別するために、GCの形式的定義を示し、既存のメソッドをその目的に基づいて体系的に3つのタイプに分類する分類を確立し、凝縮グラフを生成するための定式化を、2つのカテゴリに分類する。 さらに,この分野におけるデータセットと評価指標の包括的分析も行なっている。 最後に、課題と限界に取り組み、今後の方向性を概説し、この分野の将来研究を刺激するための簡潔なガイドラインを提供することで締めくくります。

Analytics on large-scale graphs have posed significant challenges to computational efficiency and resource requirements. Recently, Graph condensation (GC) has emerged as a solution to address challenges arising from the escalating volume of graph data. The motivation of GC is to reduce the scale of large graphs to smaller ones while preserving essential information for downstream tasks. For a better understanding of GC and to distinguish it from other related topics, we present a formal definition of GC and establish a taxonomy that systematically categorizes existing methods into three types based on its objective, and classify the formulations to generate the condensed graphs into two categories as modifying the original graphs or synthetic completely new ones. Moreover, our survey includes a comprehensive analysis of datasets and evaluation metrics in this field. Finally, we conclude by addressing challenges and limitations, outlining future directions, and offering concise guidelines to inspire future research in this field.
翻訳日:2024-02-06 23:03:50 公開日:2024-02-03
# エッジ上でのオンライン時系列予測のための新しい超次元計算フレームワーク

A Novel Hyperdimensional Computing Framework for Online Time Series Forecasting on the Edge ( http://arxiv.org/abs/2402.01999v1 )

ライセンス: Link先を確認
Mohamed Mejri, Chandramouli Amarnath, Abhijit Chatterjee(参考訳) 近年,時系列予測のためのオンラインおよびオフラインのディープラーニングモデルが開発されている。 しかし、オフライン深層予測モデルは時系列データの変化に効果的に適応できず、オンライン深層予測モデルはしばしば高価で複雑なトレーニング手順を持っている。 本稿では,オンライン非線形時系列予測問題を線形超次元時系列予測の1つとして再構成する。 非線形低次元時系列データは、線形超次元予測のために高次元(超次元)空間にマッピングされ、高速で効率的で軽量なオンライン時系列予測を可能にする。 提案手法であるtsf-hdは,超次元マッピングと線形超次元予測のための新しいコトレーニングフレームワークを用いて時系列分布シフトに適応する。 TSF-HDは、短期および長期の時系列予測において、推論遅延を低減しつつ、技術状況よりも優れていた。 私たちのコードはhttp://github.com/tsfhd2024/tsf-hd.gitで公開されています。

In recent years, both online and offline deep learning models have been developed for time series forecasting. However, offline deep forecasting models fail to adapt effectively to changes in time-series data, while online deep forecasting models are often expensive and have complex training procedures. In this paper, we reframe the online nonlinear time-series forecasting problem as one of linear hyperdimensional time-series forecasting. Nonlinear low-dimensional time-series data is mapped to high-dimensional (hyperdimensional) spaces for linear hyperdimensional prediction, allowing fast, efficient and lightweight online time-series forecasting. Our framework, TSF-HD, adapts to time-series distribution shifts using a novel co-training framework for its hyperdimensional mapping and its linear hyperdimensional predictor. TSF-HD is shown to outperform the state of the art, while having reduced inference latency, for both short-term and long-term time series forecasting. Our code is publicly available at http://github.com/tsfhd2024/tsf-hd.git
翻訳日:2024-02-06 23:03:33 公開日:2024-02-03
# オンライン一様リスクタイムサンプリング:最初の近似アルゴリズム、完全信頼区間統合による学習増強

Online Uniform Risk Times Sampling: First Approximation Algorithms, Learning Augmentation with Full Confidence Interval Integration ( http://arxiv.org/abs/2402.01995v1 )

ライセンス: Link先を確認
Xueqing Liu, Kyra Gan, Esmaeil Keyvanshokooh, Susan Murphy(参考訳) デジタルヘルスにおいて、限られた治療予算を利用可能なリスク時間に割り当てる戦略は、ユーザの疲労を軽減するために不可欠である。 しかし、この戦略は、理論上の保証が欠けている既存の方法では適切に対処できない要因である、実際のリスクタイムが不明であるために、重大な障害に直面する。 本稿では,近似アルゴリズムフレームワーク内でのオンライン一様リスク時間サンプリング問題について,初めて紹介する。 そこで本研究では,学習の強化を伴わない2つのオンライン近似アルゴリズムを提案し,競合比分析による厳密な理論性能保証を提供する。 人工実験とHeartStepsモバイルアプリケーションにおける実世界のケーススタディの両方を用いてアルゴリズムの性能を評価する。

In digital health, the strategy of allocating a limited treatment budget across available risk times is crucial to reduce user fatigue. This strategy, however, encounters a significant obstacle due to the unknown actual number of risk times, a factor not adequately addressed by existing methods lacking theoretical guarantees. This paper introduces, for the first time, the online uniform risk times sampling problem within the approximation algorithm framework. We propose two online approximation algorithms for this problem, one with and one without learning augmentation, and provide rigorous theoretical performance guarantees for them using competitive ratio analysis. We assess the performance of our algorithms using both synthetic experiments and a real-world case study on HeartSteps mobile applications.
翻訳日:2024-02-06 23:03:18 公開日:2024-02-03
# 大規模言語モデルにおける人間中心プライバシ研究

Human-Centered Privacy Research in the Age of Large Language Models ( http://arxiv.org/abs/2402.01994v1 )

ライセンス: Link先を確認
Tianshi Li, Sauvik Das, Hao-Ping Lee, Dakuo Wang, Bingsheng Yao, Zhiping Zhang(参考訳) 大規模言語モデル(llm)の出現と、ユーザ向けシステムでの使用の増加は、プライバシーに関する重大な懸念を引き起こした。 これまでのところ、これらのプライバシーに関する研究はモデル中心で行われており、LLMが暗記のようなプライバシーリスクをいかに引き起こすか、あるいはコンテンツから人に関する個人的特徴を推測するために使用できるか、などである。 例えば、LLMの設計パラダイムがユーザの開示行動にどのように影響するか、ユーザのメンタルモデルとプライバシコントロールの嗜好、エンドユーザが個人データに対して所有権を回復するためのツール、システム、アーティファクトの設計などである。 利用性,効率性,プライバシに配慮したシステムを構築するために,llmを活用したシステムにおいて,プライバシ問題に関する人間中心の研究を行うための議題を概説する。 この特別関心グループ(SIG)は、セキュリティとプライバシ、人間とAIのコラボレーション、NLP、その他の関連分野の研究者を結集して、この問題に関する見解や経験を共有し、コミュニティがHCI以外の研究者と協力するための課題、研究機会、研究方法、戦略の集合的理解を確立するのを支援することを目的としています。

The emergence of large language models (LLMs), and their increased use in user-facing systems, has led to substantial privacy concerns. To date, research on these privacy concerns has been model-centered: exploring how LLMs lead to privacy risks like memorization, or can be used to infer personal characteristics about people from their content. We argue that there is a need for more research focusing on the human aspect of these privacy issues: e.g., research on how design paradigms for LLMs affect users' disclosure behaviors, users' mental models and preferences for privacy controls, and the design of tools, systems, and artifacts that empower end-users to reclaim ownership over their personal data. To build usable, efficient, and privacy-friendly systems powered by these models with imperfect privacy properties, our goal is to initiate discussions to outline an agenda for conducting human-centered research on privacy issues in LLM-powered systems. This Special Interest Group (SIG) aims to bring together researchers with backgrounds in usable security and privacy, human-AI collaboration, NLP, or any other related domains to share their perspectives and experiences on this problem, to help our community establish a collective understanding of the challenges, research opportunities, research methods, and strategies to collaborate with researchers outside of HCI.
翻訳日:2024-02-06 23:03:05 公開日:2024-02-03
# RSV事例検出のためのオンライン転送学習

Online Transfer Learning for RSV Case Detection ( http://arxiv.org/abs/2402.01987v1 )

ライセンス: Link先を確認
Yiming Sun, Yuhe Gao, Runxue Bao, Gregory F. Cooper, Jessi Espino, Harry Hochheiser, Marian G. Michaels, John M. Aronis, Ye Ye(参考訳) トランスファーラーニングは機械学習において重要な技術となり、様々な現実世界の応用でその効果が知られている。 しかし、この手法をシーケンシャルな疫学的データに適用する際、しばしばラベル付き情報の不足を特徴とする重要な課題が生じる。 この課題に対処するために、新しいオンラインマルチソーストランスファー学習法である予測ボリューム適応重み付け(PVAW)を導入する。 PVAWは、アンサンブルモデル内で動的重み付け機構を革新的に実装し、各ソースとターゲットモデルの関連性と寄与に基づいて重みの自動調整を可能にする。 ピッツバーグ大学メディカルセンターで複数シーズンにわたって収集されたRSV(Respiratory Syncytial Virus)データの解析におけるPVAWの有効性を実証した。 提案手法は,既存のベースラインよりもモデル性能が大幅に向上し,複雑なシーケンシャルデータを扱うオンライントランスファー学習の可能性を強調した。 本研究は,医療におけるトランスファーラーニングの適応性と高度化だけでなく,先進的な予測モデルの構築に向けた新たな方向性を定めている。

Transfer learning has become a pivotal technique in machine learning, renowned for its effectiveness in various real-world applications. However, a significant challenge arises when applying this approach to sequential epidemiological data, often characterized by a scarcity of labeled information. To address this challenge, we introduce Predictive Volume-Adaptive Weighting (PVAW), a novel online multi-source transfer learning method. PVAW innovatively implements a dynamic weighting mechanism within an ensemble model, allowing for the automatic adjustment of weights based on the relevance and contribution of each source and target model. We demonstrate the effectiveness of PVAW through its application in analyzing Respiratory Syncytial Virus (RSV) data, collected over multiple seasons at the University of Pittsburgh Medical Center. Our method showcases significant improvements in model performance over existing baselines, highlighting the potential of online transfer learning in handling complex, sequential data. This study not only underscores the adaptability and sophistication of transfer learning in healthcare but also sets a new direction for future research in creating advanced predictive models.
翻訳日:2024-02-06 23:02:38 公開日:2024-02-03
# 自己劣化型大規模言語モデル:ゼロショット認識とステレオタイプ削減

Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes ( http://arxiv.org/abs/2402.01981v1 )

ライセンス: Link先を確認
Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Tong Yu, Hanieh Deilamsalehy, Ruiyi Zhang, Sungchul Kim, Franck Dernoncourt(参考訳) 大規模言語モデル(LLM)は、言語生成と理解において顕著な進歩を示したが、有害な社会的偏見を示す傾向がある。 これらの行動の認識は、バイアス軽減手法を多数生み出しているが、ほとんどの場合、トレーニングデータ、モデルパラメータ、あるいはデコード戦略の変更が必要であり、トレーニング可能なモデルにアクセスできない可能性がある。 本研究では, LLMのゼロショット機能を活用し, ゼロショット自己劣化技術として導入したステレオタイピングを低減する。 リプロンプトによる自己退化と自己退化という2つのアプローチにより、自己退化は、LLM自体と単純なプロンプトにのみ依存しながら、9つの異なる社会グループ間でのステレオタイピングの度合いを著しく低減し、不正な仮定を正しく識別し、バイアスの最大化を実現する。 この研究がバイアス軽減のための他のゼロショット技術の調査をオープンにすることを願っている。

Large language models (LLMs) have shown remarkable advances in language generation and understanding but are also prone to exhibiting harmful social biases. While recognition of these behaviors has generated an abundance of bias mitigation techniques, most require modifications to the training data, model parameters, or decoding strategy, which may be infeasible without access to a trainable model. In this work, we leverage the zero-shot capabilities of LLMs to reduce stereotyping in a technique we introduce as zero-shot self-debiasing. With two approaches, self-debiasing via explanation and self-debiasing via reprompting, we show that self-debiasing can significantly reduce the degree of stereotyping across nine different social groups while relying only on the LLM itself and a simple prompt, with explanations correctly identifying invalid assumptions and reprompting delivering the greatest reductions in bias. We hope this work opens inquiry into other zero-shot techniques for bias mitigation.
翻訳日:2024-02-06 23:02:19 公開日:2024-02-03
# SoCIALITE-LLAMA:社会科学的課題の指導訓練モデル

SOCIALITE-LLAMA: An Instruction-Tuned Model for Social Scientific Tasks ( http://arxiv.org/abs/2402.01980v1 )

ライセンス: Link先を確認
Gourab Dey, Adithya V Ganesan, Yash Kumar Lal, Manal Shah, Shreyashee Sinha, Matthew Matero, Salvatore Giorgi, Vivek Kulkarni, H. Andrew Schwartz(参考訳) 感情やユーモア検出などの社会科学のNLPタスクは、テキストから暗黙のプラグマティクスとともに、しばしば限られた訓練データとともに意味を捉えるために必要である。 命令チューニングは、コモンセンス推論、読み取り理解、コンピュータプログラミングなど、大規模言語モデル(llm)の多くの能力を改善することが示されている。 しかし,暗黙的な実践がしばしば必要とされる社会領域における指導指導の有効性についてはほとんど分かっていない。 社会科学nlpタスクにおけるインストラクションチューニングの利用について検討し,オープンソースのインストラクション調整ラマであるsocialite-llamaを紹介する。 20のソーシャルサイエンスタスクのスイートにおいて、socialite-llamaはllamaのパフォーマンスを改善し、それらの大部分で最先端のマルチタスクの微調整モデルのパフォーマンスをマッチさせたり改善したりする。 さらに、Socialite-Llamaは、Llamaと比較して、関連する6つの社会的タスクのうち5つの改善につながっている。 私たちのコード、モデル、データセットを含むすべてのリソースは、bit.ly/socialitellamaで見ることができます。

Social science NLP tasks, such as emotion or humor detection, are required to capture the semantics along with the implicit pragmatics from text, often with limited amounts of training data. Instruction tuning has been shown to improve the many capabilities of large language models (LLMs) such as commonsense reasoning, reading comprehension, and computer programming. However, little is known about the effectiveness of instruction tuning on the social domain where implicit pragmatic cues are often needed to be captured. We explore the use of instruction tuning for social science NLP tasks and introduce Socialite-Llama -- an open-source, instruction-tuned Llama. On a suite of 20 social science tasks, Socialite-Llama improves upon the performance of Llama as well as matches or improves upon the performance of a state-of-the-art, multi-task finetuned model on a majority of them. Further, Socialite-Llama also leads to improvement on 5 out of 6 related social tasks as compared to Llama, suggesting instruction tuning can lead to generalized social understanding. All resources including our code, model and dataset can be found through bit.ly/socialitellama.
翻訳日:2024-02-06 23:01:59 公開日:2024-02-03
# 気候活動性2024におけるMason Perplexity: 高度アンサンブル技術とデータ拡張の統合とヘイトイベント同定

MasonPerplexity at ClimateActivism 2024: Integrating Advanced Ensemble Techniques and Data Augmentation for Climate Activism Stance and Hate Event Identification ( http://arxiv.org/abs/2402.01976v1 )

ライセンス: Link先を確認
Al Nahian Bin Emran, Amrita Ganguly, Sadiya Sayara Chowdhury Puspo, Dhiman Goswami, Md Nishat Raihan(参考訳) ソーシャルメディア上での世論の特定、特に気候活動やヘイトイベントの検出は、急速に変化する世界において重要な研究領域として浮上している。 気候問題を支持したり、反対したりする声が増えている中で、これらの多様な視点から考えることがますます重要になっている。 私たちのチームであるMasonPerplexityは、この問題に焦点を当てた重要な研究活動に参加します。 我々は様々なモデルや手法を広範囲にテストし、最も効果的な結果がアンサンブルモデリングによって得られることを発見した。 この課題の具体的構成要素として,研究チームは各サブタスクで5位,1位,6位にランクインし,この重要な研究分野におけるアプローチの有効性について考察した。

The task of identifying public opinions on social media, particularly regarding climate activism and the detection of hate events, has emerged as a critical area of research in our rapidly changing world. With a growing number of people voicing either to support or oppose to climate-related issues - understanding these diverse viewpoints has become increasingly vital. Our team, MasonPerplexity, participates in a significant research initiative focused on this subject. We extensively test various models and methods, discovering that our most effective results are achieved through ensemble modeling, enhanced by data augmentation techniques like back-translation. In the specific components of this research task, our team achieved notable positions, ranking 5th, 1st, and 6th in the respective sub-tasks, thereby illustrating the effectiveness of our approach in this important field of study.
翻訳日:2024-02-06 23:01:40 公開日:2024-02-03
# 構造認識型E(3)不変分子コンバータ集約ネットワーク

Structure-Aware E(3)-Invariant Molecular Conformer Aggregation Networks ( http://arxiv.org/abs/2402.01975v1 )

ライセンス: Link先を確認
Duy M. H. Nguyen, Nina Lukashina, Tai Nguyen, An T. Le, TrungTin Nguyen, Nhat Ho, Jan Peters, Daniel Sonntag, Viktor Zaverkin, Mathias Niepert(参考訳) 分子の2D表現は、その原子、その特性、および分子の共有結合からなる。 分子の3D(幾何学的)表現はコンバータと呼ばれ、その原子型とカルテシアン座標からなる。 すべての共役体はポテンシャルエネルギーを持ち、このエネルギーが低いほど自然界で起こる可能性が高くなる。 分子特性予測のための既存の機械学習手法のほとんどは、2次元分子グラフまたは3次元共役構造表現を分離して考える。 2次元グラフ表現と協調して配座のアンサンブルを用いる最近の研究に触発されて,e(3)不変分子配座アグリゲーションネットワークを提案する。 この方法は分子の2D表現と複数の共役体の表現を統合する。 従来の研究とは対照的に, \emph{Fused Gromov-Wasserstein Barycenter} 問題に対する微分可能解法と距離幾何学に基づく効率的なオンラインコンホメータ生成手法を用いた新しい2D--3Dアグリゲーション機構を提案する。 提案するアグリゲーション機構はE(3)不変であり,効率的なGPU実装を提供する。 さらに,アグリゲーション機構が確立したデータセット上で,最先端のプロパティ予測手法を著しく上回ることを実証する。

A molecule's 2D representation consists of its atoms, their attributes, and the molecule's covalent bonds. A 3D (geometric) representation of a molecule is called a conformer and consists of its atom types and Cartesian coordinates. Every conformer has a potential energy, and the lower this energy, the more likely it occurs in nature. Most existing machine learning methods for molecular property prediction consider either 2D molecular graphs or 3D conformer structure representations in isolation. Inspired by recent work on using ensembles of conformers in conjunction with 2D graph representations, we propose E(3)-invariant molecular conformer aggregation networks. The method integrates a molecule's 2D representation with that of multiple of its conformers. Contrary to prior work, we propose a novel 2D--3D aggregation mechanism based on a differentiable solver for the \emph{Fused Gromov-Wasserstein Barycenter} problem and the use of an efficient online conformer generation method based on distance geometry. We show that the proposed aggregation mechanism is E(3) invariant and provides an efficient GPU implementation. Moreover, we demonstrate that the aggregation mechanism helps to outperform state-of-the-art property prediction methods on established datasets significantly.
翻訳日:2024-02-06 23:01:23 公開日:2024-02-03
# 腹腔鏡およびロボット手術における対話型イベント予測のためのhypergraph-transformer (hgt)

Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery ( http://arxiv.org/abs/2402.01974v1 )

ライセンス: Link先を確認
Lianhao Yin, Yutong Ban, Jennifer Eckhoff, Ozanan Meireles, Daniela Rus, Guy Rosman(参考訳) 術中手術における術中イベントや行動の理解と予測は術中支援や意思決定に不可欠である。 事象、行動、および以下の結果の自動予測は、外科医の認識と意思決定能力を増強する目的で、様々な計算アプローチを通じて対処される。 本稿では,外科的知識グラフを柔軟に活用しながら,腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測ニューラルネットワークを提案する。 このアプローチには、専門家の知識をネットワーク設計にエンコードし、グラフの隠れ埋め込みを予測するハイパーグラフ変換器(HGT)構造が組み込まれている。 本研究のアプローチは,三重項の検出と予測,安全クリティカルビュー(CVS)の達成など,確立された外科的データセットと応用に対する検証である。 また,嚢胞性ダクトや動脈のクリッピングをCVSの既往の達成なしに予測するなど,特定の安全関連課題に対処する。 以上の結果から,非構造的な代替案と比較して,アプローチの優越性が示された。

Understanding and anticipating intraoperative events and actions is critical for intraoperative assistance and decision-making during minimally invasive surgery. Automated prediction of events, actions, and the following consequences is addressed through various computational approaches with the objective of augmenting surgeons' perception and decision-making capabilities. We propose a predictive neural network that is capable of understanding and predicting critical interactive aspects of surgical workflow from intra-abdominal video, while flexibly leveraging surgical knowledge graphs. The approach incorporates a hypergraph-transformer (HGT) structure that encodes expert knowledge into the network design and predicts the hidden embedding of the graph. We verify our approach on established surgical datasets and applications, including the detection and prediction of action triplets, and the achievement of the Critical View of Safety (CVS). Moreover, we address specific, safety-related tasks, such as predicting the clipping of cystic duct or artery without prior achievement of the CVS. Our results demonstrate the superiority of our approach compared to unstructured alternatives.
翻訳日:2024-02-06 23:01:01 公開日:2024-02-03
# t-learningとdr-learningを組み合わせる:oracleによる因果コントラストの効率的な推定のためのフレームワーク

Combining T-learning and DR-learning: a framework for oracle-efficient estimation of causal contrasts ( http://arxiv.org/abs/2402.01972v1 )

ライセンス: Link先を確認
Lars van der Laan, Marco Carone, Alex Luedtke(参考訳) 条件付き平均処理効果や条件付き相対リスクなどの異種因果コントラストを推定するための新しいフレームワークである,効率的なプラグイン学習(EP)を導入する。 ep-learning フレームワークは dr-learning や r-learning といった neyman-orthogonal learning 戦略と同じ oracle-efficiency を享受しています。 一 損失関数の非凸性によりその実用性が妨げられること。 (II) 逆確率重み付けや境界に反する擬似アウトカムにより, 性能や不安定性に悩まされることがある。 これらの欠点を回避するため、EP-learnerは、因果コントラストに対する集団リスク関数の効率的なプラグイン推定器を構築し、Tラーニングのようなプラグイン推定戦略の安定性と堅牢性を継承する。 妥当な条件下では、経験的リスク最小化に基づくEPラーナーはオラクル効率が高く、オラクル効率の低い1段階の集団リスク関数推定器の最小化に漸近的に等価である。 シミュレーション実験では,条件付き平均治療効果と条件付き相対リスクのep-learnerが,t-learner,r-learner,dr-learnerなど,最先端の競争相手よりも優れていることを示す。 提案手法のオープンソース実装は、Rパッケージhte3で利用可能である。

We introduce efficient plug-in (EP) learning, a novel framework for the estimation of heterogeneous causal contrasts, such as the conditional average treatment effect and conditional relative risk. The EP-learning framework enjoys the same oracle-efficiency as Neyman-orthogonal learning strategies, such as DR-learning and R-learning, while addressing some of their primary drawbacks, including that (i) their practical applicability can be hindered by loss function non-convexity; and (ii) they may suffer from poor performance and instability due to inverse probability weighting and pseudo-outcomes that violate bounds. To avoid these drawbacks, EP-learner constructs an efficient plug-in estimator of the population risk function for the causal contrast, thereby inheriting the stability and robustness properties of plug-in estimation strategies like T-learning. Under reasonable conditions, EP-learners based on empirical risk minimization are oracle-efficient, exhibiting asymptotic equivalence to the minimizer of an oracle-efficient one-step debiased estimator of the population risk function. In simulation experiments, we illustrate that EP-learners of the conditional average treatment effect and conditional relative risk outperform state-of-the-art competitors, including T-learner, R-learner, and DR-learner. Open-source implementations of the proposed methods are available in our R package hte3.
翻訳日:2024-02-06 23:00:42 公開日:2024-02-03
# BVI-Lowlight: 低照度ビデオ拡張のための完全なベンチマークデータセット

BVI-Lowlight: Fully Registered Benchmark Dataset for Low-Light Video Enhancement ( http://arxiv.org/abs/2402.01970v1 )

ライセンス: Link先を確認
Nantheera Anantrasirichai and Ruirui Lin and Alexandra Malyugina and David Bull(参考訳) 低照度ビデオはしばしば時空間的不整合ノイズを示し、視認性が悪く、様々なコンピュータビジョンアプリケーションで性能が損なわれる。 現代の技術を使ったコンテンツの強化における重要な課題は、トレーニングデータの不足である。 本稿では,2つの異なる低照度条件下で様々な動きシナリオで撮影される40のシーンからなる,新しい低照度映像データセットを提案する。 我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた、完全に登録された地上真実データを、画像ベースの後処理により精査し、異なる光レベルにおけるフレームのピクセルワイドアライメントを保証する。 本稿では,低照度データセットの徹底的な解析を行い,教師あり学習の文脈におけるデータセットの広範囲かつ代表的な性質を示す。 実験の結果,低照度映像強調法の開発における完全登録ビデオペアの重要性と総合評価の必要性が示された。 私たちのデータセットはdoi:10.21227/mzny-8c77で利用可能です。

Low-light videos often exhibit spatiotemporal incoherent noise, leading to poor visibility and compromised performance across various computer vision applications. One significant challenge in enhancing such content using modern technologies is the scarcity of training data. This paper introduces a novel low-light video dataset, consisting of 40 scenes captured in various motion scenarios under two distinct low-lighting conditions, incorporating genuine noise and temporal artifacts. We provide fully registered ground truth data captured in normal light using a programmable motorized dolly, and subsequently, refine them via image-based post-processing to ensure the pixel-wise alignment of frames in different light levels. This paper also presents an exhaustive analysis of the low-light dataset, and demonstrates the extensive and representative nature of our dataset in the context of supervised learning. Our experimental results demonstrate the significance of fully registered video pairs in the development of low-light video enhancement methods and the need for comprehensive evaluation. Our dataset is available at DOI:10.21227/mzny-8c77.
翻訳日:2024-02-06 23:00:15 公開日:2024-02-03
# 機械学習パスロス予測のためのシミュレーション強調データ拡張

Simulation-Enhanced Data Augmentation for Machine Learning Pathloss Prediction ( http://arxiv.org/abs/2402.01969v1 )

ライセンス: Link先を確認
Ahmed P. Mohamed, Byunghyun Lee, Yaguang Zhang, Max Hollingsworth, C. Robert Anderson, James V. Krogmeier, David J. Love(参考訳) 機械学習(ML)は、パスロス予測に対する有望なソリューションを提供する。 しかし、データの可用性の制限により、その効果は低下する可能性がある。 そこで本研究では,mlパスロス予測のための新しいシミュレーション強調データ拡張手法を提案する。 本手法では,セルカバレッジシミュレータから生成した合成データと,実世界のデータセットを独立に収集する。 これらのデータセットは、農場、丘陵地帯、住宅地など様々な環境での広範な測定キャンペーンを通じて収集された。 この包括的なデータ収集は、モデルトレーニングにとって重要な真実を提供します。 LiDARデータセットから派生した地理的属性を含む一連のチャネル機能を設計した。 これらの特徴は予測モデルをトレーニングするために使われ、高効率で頑健なグラデーション強化MLアルゴリズムであるCatBoostを取り入れた。 本研究で示されたように, 合成データの統合は, 異なる環境下でのモデルの一般化可能性を大幅に向上させ, 平均絶対誤差において約12dBの顕著な改善を実現している。 さらに,シミュレーショントレーニングセットに追加される少数の測定値であっても,適切なデータバランスで,モデルの性能を大幅に向上させることができることを明らかにした。

Machine learning (ML) offers a promising solution to pathloss prediction. However, its effectiveness can be degraded by the limited availability of data. To alleviate these challenges, this paper introduces a novel simulation-enhanced data augmentation method for ML pathloss prediction. Our method integrates synthetic data generated from a cellular coverage simulator and independently collected real-world datasets. These datasets were collected through an extensive measurement campaign in different environments, including farms, hilly terrains, and residential areas. This comprehensive data collection provides vital ground truth for model training. A set of channel features was engineered, including geographical attributes derived from LiDAR datasets. These features were then used to train our prediction model, incorporating the highly efficient and robust gradient boosting ML algorithm, CatBoost. The integration of synthetic data, as demonstrated in our study, significantly improves the generalizability of the model in different environments, achieving a remarkable improvement of approximately 12dB in terms of mean absolute error for the best-case scenario. Moreover, our analysis reveals that even a small fraction of measurements added to the simulation training set, with proper data balance, can significantly enhance the model's performance.
翻訳日:2024-02-06 22:59:56 公開日:2024-02-03
# 基本二元法勾配アルゴリズムによる無限水平平均逆数制約MDPの一般パラメータ化法学習

Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm ( http://arxiv.org/abs/2402.02042v1 )

ライセンス: Link先を確認
Qinbo Bai, Washim Uddin Mondal, Vaneet Aggarwal(参考訳) 本稿では、無限水平平均報酬制約マルコフ決定過程(CMDP)の領域を考察する。 我々の知る限り、この研究は、一般的な政策パラメトリゼーションによる平均報酬CMDPの後悔と制約違反の分析を初めて調べるものである。 この課題に対処するために,グローバルな最適政策を達成するための低い後悔の保証を確保しつつ,制約を適切に管理するプライマリデュアルベースポリシー勾配アルゴリズムを提案する。 特に、提案アルゴリズムは、目的的後悔と制約違反境界を$\tilde{\mathcal{O}}({T}^{3/4})$\tilde{\mathcal{O}}({T}^{3/4})$で達成することを示した。

This paper explores the realm of infinite horizon average reward Constrained Markov Decision Processes (CMDP). To the best of our knowledge, this work is the first to delve into the regret and constraint violation analysis of average reward CMDPs with a general policy parametrization. To address this challenge, we propose a primal dual based policy gradient algorithm that adeptly manages the constraints while ensuring a low regret guarantee toward achieving a global optimal policy. In particular, we demonstrate that our proposed algorithm achieves $\tilde{\mathcal{O}}({T}^{3/4})$ objective regret and $\tilde{\mathcal{O}}({T}^{3/4})$ constraint violation bounds.
翻訳日:2024-02-06 22:52:56 公開日:2024-02-03
# 時系列の未知の例

Unlearnable Examples For Time Series ( http://arxiv.org/abs/2402.02028v1 )

ライセンス: Link先を確認
Yujing Jiang, Xingjun Ma, Sarah Monazam Erfani, James Bailey(参考訳) 未学習の例(UEs)とは、Deep Neural Networks(DNN)に学習できないように修正されたトレーニングサンプルを指す。 これらの例は、通常、DNNモデルを騙して、データから学ぶもの(エラーなし)が何もないと信じるようなエラー最小化ノイズを追加することで生成される。 個人データに対する不正なデータ利用に対する対策として,UEの概念が提案されている。 UEは画像上で広く研究されているが、時系列データに有効なUEを構築する方法は不明である。 本稿では,ディープラーニングモデルによる不正トレーニングから時系列データを保護する最初のue生成法を提案する。 そこで本研究では,時系列の特定のセグメントに適用可能な誤り最小化ノイズの新たな形式を提案する。 幅広い時系列データセットに関する広範な実験を通じて,提案手法が分類タスクと生成タスクの両方に有効であることを実証した。 時系列データを不正な搾取から保護すると同時に、正当な使用のためにそのユーティリティを保護し、セキュアで信頼性の高い機械学習システムの開発に寄与する。

Unlearnable examples (UEs) refer to training samples modified to be unlearnable to Deep Neural Networks (DNNs). These examples are usually generated by adding error-minimizing noises that can fool a DNN model into believing that there is nothing (no error) to learn from the data. The concept of UE has been proposed as a countermeasure against unauthorized data exploitation on personal data. While UE has been extensively studied on images, it is unclear how to craft effective UEs for time series data. In this work, we introduce the first UE generation method to protect time series data from unauthorized training by deep learning models. To this end, we propose a new form of error-minimizing noise that can be \emph{selectively} applied to specific segments of time series, rendering them unlearnable to DNN models while remaining imperceptible to human observers. Through extensive experiments on a wide range of time series datasets, we demonstrate that the proposed UE generation method is effective in both classification and generation tasks. It can protect time series data against unauthorized exploitation, while preserving their utility for legitimate usage, thereby contributing to the development of secure and trustworthy machine learning systems.
翻訳日:2024-02-06 22:52:39 公開日:2024-02-03
# 自律運転におけるコーナーケース検出のためのマルチモーダル強調対象性学習器

Multimodal-Enhanced Objectness Learner for Corner Case Detection in Autonomous Driving ( http://arxiv.org/abs/2402.02026v1 )

ライセンス: Link先を確認
Lixing Xiao, Ruixiao Shi, Xiaoyang Tang, Yi Zhou(参考訳) オブジェクト検出に関するこれまでの研究は、クローズドセットのシナリオで高い精度を達成したが、オープンワールドのシナリオでの性能は満足できない。 オープンワールドの課題の1つは、自動運転におけるコーナーケース検出である。 既存の検出器はこれらのケースに苦労し、視覚的外観に大きく依存し、一般化能力に乏しい。 本稿では,未知クラスと未知クラスとの差を減らし,マルチモーダル強化されたオブジェクト指向概念学習システムを提案する。 我々の半教師付き学習フレームワークは、視覚中心と画像テキストのモダリティの両方を活用することで、学生モデルに客観性を付与し、クラス認識検出を可能にする。 コーナケース検出のためのMENOL(Multimodal-Enhanced Objectness Learner)アプローチは,トレーニングコストの低い新しい授業のリコールを大幅に改善する。 CODA-valデータセットで76.6%のmARコーナと79.8%のmARを5100のラベル付きトレーニングイメージで達成することで、MENOLはベースラインOREを71.3%、60.6%で上回っている。 コードはhttps://github.com/tryhiseyyysum/MENOL.comから入手できる。

Previous works on object detection have achieved high accuracy in closed-set scenarios, but their performance in open-world scenarios is not satisfactory. One of the challenging open-world problems is corner case detection in autonomous driving. Existing detectors struggle with these cases, relying heavily on visual appearance and exhibiting poor generalization ability. In this paper, we propose a solution by reducing the discrepancy between known and unknown classes and introduce a multimodal-enhanced objectness notion learner. Leveraging both vision-centric and image-text modalities, our semi-supervised learning framework imparts objectness knowledge to the student model, enabling class-aware detection. Our approach, Multimodal-Enhanced Objectness Learner (MENOL) for Corner Case Detection, significantly improves recall for novel classes with lower training costs. By achieving a 76.6% mAR-corner and 79.8% mAR-agnostic on the CODA-val dataset with just 5100 labeled training images, MENOL outperforms the baseline ORE by 71.3% and 60.6%, respectively. The code will be available at https://github.com/tryhiseyyysum/MENOL.
翻訳日:2024-02-06 22:52:21 公開日:2024-02-03
# 安全強化学習における制約定式化の検討

A Survey of Constraint Formulations in Safe Reinforcement Learning ( http://arxiv.org/abs/2402.02025v1 )

ライセンス: Link先を確認
Akifumi Wachi, Xun Shen, Yanan Sui(参考訳) 実世界の問題に強化学習(RL)を適用する場合、安全性を確保することが重要である。 その結果、安全なRLは実験データからエージェントのポリシーを安全に最適化するための基本的で強力なパラダイムとして現れる。 一般的なsafe rlアプローチは、安全制約下での期待累積報酬を最大化する問題を解決する制約付き基準に基づいている。 近年、RLの安全性を達成するための試みが急増しているが、この分野の体系的な理解は困難である。 1)制約表現の多様性 2) 相互関係についてはほとんど議論していない。 この知識のギャップに対処するために,各定式化用に特別に設計されたアルゴリズムのキュレートされた選択とともに,代表的な制約定式化を包括的にレビューする。 さらに,共通問題定式化の数学的相互関係を明らかにする理論的基盤を解明する。 最後に,安全強化学習研究の現状と今後の方向性について考察する。

Ensuring safety is critical when applying reinforcement learning (RL) to real-world problems. Consequently, safe RL emerges as a fundamental and powerful paradigm for safely optimizing an agent's policy from experimental data. A popular safe RL approach is based on a constrained criterion, which solves the problem of maximizing expected cumulative reward under safety constraints. Though there has been recently a surge of such attempts to achieve safety in RL, a systematic understanding of the field is difficult due to 1) the diversity of constraint representations and 2) little discussion of their interrelations. To address this knowledge gap, we provide a comprehensive review of representative constraint formulations, along with a curated selection of algorithms specifically designed for each formulation. Furthermore, we elucidate the theoretical underpinnings that reveal the mathematical mutual relations among common problem formulations. We conclude with a discussion of the current state and future directions of safe reinforcement learning research.
翻訳日:2024-02-06 22:51:56 公開日:2024-02-03
# 自己監督型コントラスト予測

Self-Supervised Contrastive Forecasting ( http://arxiv.org/abs/2402.02023v1 )

ライセンス: Link先を確認
Junwoo Park, Daehoon Gwak, Jaegul Choo, Edward Choi(参考訳) 長期予測は、長いシーケンスを扱う際の時間とメモリの複雑さによって、ユニークな課題を呈する。 ウィンドウをスライドして長いシーケンスを処理している既存の方法は、ショートウィンドウ内で部分的に捕捉される長期の変動(すなわち外ウィンドウの変動)を効果的に捉えるのに苦労している。 本稿では,コントラスト学習と拡張分解アーキテクチャを用いて,この制限を克服する新しいアプローチを提案する。 この目的のために、我々の対照的な損失は、全時系列に保持される大域的自己相関を取り入れ、自己監督的な方法で正対と負対の構築を容易にする。 コントラスト学習は,分解ネットワークと組み合わせることで,長期予測性能を大幅に向上させる。 広範な実験により,9つの長期ベンチマーク,特に予測にかなり長いアウトプットを必要とする困難なシナリオにおいて,複数の実験で14のベースラインモデルを上回った。 ソースコードはhttps://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsatingで公開されている。

Long-term forecasting presents unique challenges due to the time and memory complexity of handling long sequences. Existing methods, which rely on sliding windows to process long sequences, struggle to effectively capture long-term variations that are partially caught within the short window (i.e., outer-window variations). In this paper, we introduce a novel approach that overcomes this limitation by employing contrastive learning and enhanced decomposition architecture, specifically designed to focus on long-term variations. To this end, our contrastive loss incorporates global autocorrelation held in the whole time series, which facilitates the construction of positive and negative pairs in a self-supervised manner. When combined with our decomposition networks, our contrastive learning significantly improves long-term forecasting performance. Extensive experiments demonstrate that our approach outperforms 14 baseline models in multiple experiments over nine long-term benchmarks, especially in challenging scenarios that require a significantly long output for forecasting. Source code is available at https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating.
翻訳日:2024-02-06 22:51:41 公開日:2024-02-03
# 心電図診断における伝達学習は有効か?

Transfer Learning in ECG Diagnosis: Is It Effective? ( http://arxiv.org/abs/2402.02021v1 )

ライセンス: Link先を確認
Cuong V. Nguyen and Cuong D.Do(参考訳) ECG診断におけるディープラーニングの採用は、現実のシナリオにおいて、大規模でラベルの付いたデータセットの不足によって妨げられ、大きなデータセットから学んだ機能を活用するために、転送学習が使用される。 しかし、移行学習がスクラッチからトレーニングを継続的に上回るという一般的な仮定は、体系的に検証されていない。 本研究では,マルチラベル心電図分類におけるトランスファー学習の有効性について,様々な心電図データセットと深層ニューラルネットワークを対象とし,スクラッチからのトレーニングと微調整性能の比較を行った。 下流の小さなデータセットでは微調整が望ましいが、データセットが十分に大きい場合には、スクラッチからのトレーニングで同等のパフォーマンスが得られる。 さらに,時系列ecgアプリケーションにおいて最も普及している2つのアーキテクチャである繰り返しニューラルネットワークよりも,畳み込みニューラルネットワークとの相性が良好であることが判明した。 本研究は,心電図診断における伝達学習の重要性を裏付けるものであるが,データ量によっては,事前学習に伴う非無視的なコストを考慮すると,使用しない方がよい。

The adoption of deep learning in ECG diagnosis is often hindered by the scarcity of large, well-labeled datasets in real-world scenarios, leading to the use of transfer learning to leverage features learned from larger datasets. Yet the prevailing assumption that transfer learning consistently outperforms training from scratch has never been systematically validated. In this study, we conduct the first extensive empirical study on the effectiveness of transfer learning in multi-label ECG classification, by investigating comparing the fine-tuning performance with that of training from scratch, covering a variety of ECG datasets and deep neural networks. We confirm that fine-tuning is the preferable choice for small downstream datasets; however, when the dataset is sufficiently large, training from scratch can achieve comparable performance, albeit requiring a longer training time to catch up. Furthermore, we find that transfer learning exhibits better compatibility with convolutional neural networks than with recurrent neural networks, which are the two most prevalent architectures for time-series ECG applications. Our results underscore the importance of transfer learning in ECG diagnosis, yet depending on the amount of available data, researchers may opt not to use it, considering the non-negligible cost associated with pre-training.
翻訳日:2024-02-06 22:51:24 公開日:2024-02-03
# NeuV-SLAM:RGBD高密度SLAMのための高速ニューラルネットワーク多分解能ボクセル最適化

NeuV-SLAM: Fast Neural Multiresolution Voxel Optimization for RGBD Dense SLAM ( http://arxiv.org/abs/2402.02020v1 )

ライセンス: Link先を確認
Wenzhi Guo, Bing Wang, Lijun Chen(参考訳) ニュートラルV-SLAMは,超高速収束とインクリメンタル展開機能によって特徴付けられる,ニュートラル多分解能ボクセルに基づく新しい高密度同時局在およびマッピングパイプラインである。 このパイプラインでは、rgbdイメージを入力として多解像度ニューラルネットワークボクセルを構築し、堅牢なインクリメンタルなシーン再構成とカメラトラッキングを維持しながら、迅速な収束を実現する。 我々の方法論の中心は、神経署名距離場(SDF)ボクセルとSDF活性化戦略を組み合わせた、新しい暗黙的表現であるVDFを提案することである。 このアプローチでは,ボクセル内に固定された色特徴とSDF値を直接最適化し,シーン収束率を大幅に向上させる。 鮮明なエッジデラインの取得を保証するため, ボクセル解像度の制約下においても, SDFアクティベーションは模範的なシーン表現の忠実性を維持する。 さらに,計算オーバーヘッドの少ない急激な漸進的拡張を追求するために,ハッシュベースの新しいマルチレゾリューションボクセル管理構造であるhashMVを開発した。 このアーキテクチャは、2次元のシーンと相乗効果を持つ戦略的に設計されたボクセル生成技術によって補完される。 再現およびスキャンネットデータセット上で実施した実験評価では, 収束速度, 追跡精度, シーン再構成, レンダリング品質の点で, ニューウオ・スラムの例外的有効性を検証した。

We introduce NeuV-SLAM, a novel dense simultaneous localization and mapping pipeline based on neural multiresolution voxels, characterized by ultra-fast convergence and incremental expansion capabilities. This pipeline utilizes RGBD images as input to construct multiresolution neural voxels, achieving rapid convergence while maintaining robust incremental scene reconstruction and camera tracking. Central to our methodology is to propose a novel implicit representation, termed VDF that combines the implementation of neural signed distance field (SDF) voxels with an SDF activation strategy. This approach entails the direct optimization of color features and SDF values anchored within the voxels, substantially enhancing the rate of scene convergence. To ensure the acquisition of clear edge delineation, SDF activation is designed, which maintains exemplary scene representation fidelity even under constraints of voxel resolution. Furthermore, in pursuit of advancing rapid incremental expansion with low computational overhead, we developed hashMV, a novel hash-based multiresolution voxel management structure. This architecture is complemented by a strategically designed voxel generation technique that synergizes with a two-dimensional scene prior. Our empirical evaluations, conducted on the Replica and ScanNet Datasets, substantiate NeuV-SLAM's exceptional efficacy in terms of convergence speed, tracking accuracy, scene reconstruction, and rendering quality.
翻訳日:2024-02-06 22:51:03 公開日:2024-02-03
# ポジションペーパー:HPC研究とLLMの展望と課題

Position Paper: The Landscape and Challenges of HPC Research and LLMs ( http://arxiv.org/abs/2402.02018v1 )

ライセンス: Link先を確認
Le Chen, Nesreen K. Ahmed, Akash Dutta, Arijit Bhattacharjee, Sixing Yu, Quazi Ishtiaque Mahmud, Waqwoya Abebe, Hung Phan, Aishwarya Sarkar, Branden Butler, Niranjan Hasabnis, Gal Oren, Vy A. Vo, Juan Pablo Munoz, Theodore L. Willke, Tim Mattson, Ali Jannesari(参考訳) 近年,言語モデル(LM),特に大規模言語モデル(LLM)がディープラーニングの分野に革命をもたらした。 エンコーダデコーダモデルとプロンプトベースの技術の両方が、自然言語処理やコードベースのタスクにおいて大きな可能性を示している。 過去数年間、多くの研究所や機関が高性能コンピューティングに多大な投資を行ってきた。 本稿では,そのような言語モデルに基づく手法をハイパフォーマンスコンピューティング(hpc)におけるタスクに適用・活用することは,非常に有益であることを示す。 本研究は、上記の立場の背後にある推論を示し、既存のアイデアがどのようにしてhpcタスクに適応できるかを強調する。

Recently, language models (LMs), especially large language models (LLMs), have revolutionized the field of deep learning. Both encoder-decoder models and prompt-based techniques have shown immense potential for natural language processing and code-based tasks. Over the past several years, many research labs and institutions have invested heavily in high-performance computing, approaching or breaching exascale performance levels. In this paper, we posit that adapting and utilizing such language model-based techniques for tasks in high-performance computing (HPC) would be very beneficial. This study presents our reasoning behind the aforementioned position and highlights how existing ideas can be improved and adapted for HPC tasks.
翻訳日:2024-02-06 22:50:37 公開日:2024-02-03
# オフラインRLのための値支援条件付き教師付き学習

Value-Aided Conditional Supervised Learning for Offline RL ( http://arxiv.org/abs/2402.02017v1 )

ライセンス: Link先を確認
Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung(参考訳) オフライン強化学習(RL)は、戻り条件付き教師付き学習(RCSL)と価値に基づく手法を通じて顕著な進歩を遂げてきたが、それぞれのアプローチには独自の実践的課題が伴っている。 そこで本研究では,RCSLの安定性と値ベース手法の縫合性を効果的に相乗化する手法であるVCSを提案する。 ニューラル・タンジェント・カーネル解析に基づいて、値関数が安定な縫合に繋がらないインスタンスを識別し、VCSは軌道の戻りに応じてRCSLの損失関数に動的に値補助を注入する。 我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回るだけでなく、多種多様なオフラインRLベンチマークにおける最高軌道のリターンを一貫して達成または達成していることを示している。 VCSにおけるこのブレークスルーは、オフラインRLにおける新たなパスを舗装し、達成できることの限界を押し上げ、さらなるイノベーションを促進する。

Offline reinforcement learning (RL) has seen notable advancements through return-conditioned supervised learning (RCSL) and value-based methods, yet each approach comes with its own set of practical challenges. Addressing these, we propose Value-Aided Conditional Supervised Learning (VCS), a method that effectively synergizes the stability of RCSL with the stitching ability of value-based methods. Based on the Neural Tangent Kernel analysis to discern instances where value function may not lead to stable stitching, VCS injects the value aid into the RCSL's loss function dynamically according to the trajectory return. Our empirical studies reveal that VCS not only significantly outperforms both RCSL and value-based methods but also consistently achieves, or often surpasses, the highest trajectory returns across diverse offline RL benchmarks. This breakthrough in VCS paves new paths in offline RL, pushing the limits of what can be achieved and fostering further innovations.
翻訳日:2024-02-06 22:50:25 公開日:2024-02-03
# フローマッチングによる精密知識伝達

Precise Knowledge Transfer via Flow Matching ( http://arxiv.org/abs/2402.02012v1 )

ライセンス: Link先を確認
Shitong Shao, Zhiqiang Shen, Linrui Gong, Huanran Chen, Xu Dai(参考訳) 本稿では,進化的知識変換のための連続正規化フローを導入し,多段階サンプリング手法を活用して精度の高い知識伝達を実現する新しい知識伝達フレームワークを提案する。 我々は,このフレームワークを知識伝達とフローマッチング (FM-KT) と命名し,任意の形態 (\textit{e.g.} vanilla KD, DKD, PKD, DIST) と,利用可能なアーキテクチャ (\textit{e.g.} CNN, MLP, Transformer) を備えたメタエンコーダと組み合わせることができる。 確率補間器を導入することにより、FM-KDは任意のノイズスケジュール(\textit{e.g.}, VP-ODE, VE-ODE, Rectified flow)に容易に対応し、正規化された流れ経路推定を行う。 FM-KTの学習目的は,教師の特徴マップや対数負の対数関係の上限を最小化することと等価であることを示す。 さらにFM-KTは、パフォーマンス向上につながるユニークな暗黙のアンサンブルメソッドと見なすことができる。 FM-KTフレームワークをわずかに修正することで、FM-KTをオンライン蒸留フレームワークOFM-KTに変換することができる。 CIFAR-100、ImageNet-1k、MS-COCOデータセットに関する広範な実験を通じて、提案手法のスケーラビリティと最先端性能を、関連する比較手法で実証的に検証した。

In this paper, we propose a novel knowledge transfer framework that introduces continuous normalizing flows for progressive knowledge transformation and leverages multi-step sampling strategies to achieve precision knowledge transfer. We name this framework Knowledge Transfer with Flow Matching (FM-KT), which can be integrated with a metric-based distillation method with any form (\textit{e.g.} vanilla KD, DKD, PKD and DIST) and a meta-encoder with any available architecture (\textit{e.g.} CNN, MLP and Transformer). By introducing stochastic interpolants, FM-KD is readily amenable to arbitrary noise schedules (\textit{e.g.}, VP-ODE, VE-ODE, Rectified flow) for normalized flow path estimation. We theoretically demonstrate that the training objective of FM-KT is equivalent to minimizing the upper bound of the teacher feature map or logit negative log-likelihood. Besides, FM-KT can be viewed as a unique implicit ensemble method that leads to performance gains. By slightly modifying the FM-KT framework, FM-KT can also be transformed into an online distillation framework OFM-KT with desirable performance gains. Through extensive experiments on CIFAR-100, ImageNet-1k, and MS-COCO datasets, we empirically validate the scalability and state-of-the-art performance of our proposed methods among relevant comparison approaches.
翻訳日:2024-02-06 22:50:04 公開日:2024-02-03
# genformer: 多変量確率プロセス生成のためのディープラーニングに基づくアプローチ

GenFormer: A Deep-Learning-Based Approach for Generating Multivariate Stochastic Processes ( http://arxiv.org/abs/2402.02010v1 )

ライセンス: Link先を確認
Haoran Zhao, Wayne Isaac Tan Uy(参考訳) 確率発生器は、目的の統計的性質を保持する合成現実化を生成するために不可欠である。 時空間多変量確率過程のための確率生成器GenFormerを提案する。 マルコフ状態シーケンスと時系列値のマッピングを学習するTransformerベースのディープラーニングモデルを用いて構築されている。 GenFormerモデルによって生成された合成データは、多数の空間的位置と長いシミュレーション地平線を含む挑戦的な応用においても、ターゲットの辺縁分布を保存し、他の所望の統計特性をほぼ捕捉する。 GenFormerモデルを用いて,フロリダ州各地の風速データをシミュレーションし,リスク管理のための超越確率を計算する。

Stochastic generators are essential to produce synthetic realizations that preserve target statistical properties. We propose GenFormer, a stochastic generator for spatio-temporal multivariate stochastic processes. It is constructed using a Transformer-based deep learning model that learns a mapping between a Markov state sequence and time series values. The synthetic data generated by the GenFormer model preserves the target marginal distributions and approximately captures other desired statistical properties even in challenging applications involving a large number of spatial locations and a long simulation horizon. The GenFormer model is applied to simulate synthetic wind speed data at various stations in Florida to calculate exceedance probabilities for risk management.
翻訳日:2024-02-06 22:49:33 公開日:2024-02-03
# 過剰リスクを伴う頑健なマルチタスク学習

Robust Multi-Task Learning with Excess Risks ( http://arxiv.org/abs/2402.02009v1 )

ライセンス: Link先を確認
Yifei He, Shiji Zhou, Guojun Zhang, Hyokun Yun, Yi Xu, Belinda Zeng, Trishul Chilimbi, Han Zhao(参考訳) マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。 従来の手法では、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする適応重み更新方式を採用している。 しかし、ラベルノイズが存在すると、これらのアルゴリズムは、比較的大きなベイズ最適誤差を持つノイズタスクに過度な重みを割り当てる傾向があるため、他のタスクをオーバーシャドウし、ボード全体にパフォーマンスが低下する、という大きな課題に直面している。 この制限を克服するため,我々は,タスク重みをコンバージェンスまでの距離で更新する過度なリスクベースのタスクバランシング手法であるexcessmtl(余剰リスクを伴うマルチタスク学習)を提案する。 直感的には、ExcessMTLは収束からさらに遠い訓練の悪いタスクにより高い重みを割り当てる。 余剰リスクを推定するために,テイラー近似を用いた効率的かつ正確な手法を開発した。 理論的には,提案アルゴリズムは収束保証とパレート定常性を実現する。 実験により,提案アルゴリズムを様々なMTLベンチマークで評価し,ラベルノイズの存在下での既存手法よりも優れた性能を示す。

Multi-task learning (MTL) considers learning a joint model for multiple tasks by optimizing a convex combination of all task losses. To solve the optimization problem, existing methods use an adaptive weight updating scheme, where task weights are dynamically adjusted based on their respective losses to prioritize difficult tasks. However, these algorithms face a great challenge whenever label noise is present, in which case excessive weights tend to be assigned to noisy tasks that have relatively large Bayes optimal errors, thereby overshadowing other tasks and causing performance to drop across the board. To overcome this limitation, we propose Multi-Task Learning with Excess Risks (ExcessMTL), an excess risk-based task balancing method that updates the task weights by their distances to convergence instead. Intuitively, ExcessMTL assigns higher weights to worse-trained tasks that are further from convergence. To estimate the excess risks, we develop an efficient and accurate method with Taylor approximation. Theoretically, we show that our proposed algorithm achieves convergence guarantees and Pareto stationarity. Empirically, we evaluate our algorithm on various MTL benchmarks and demonstrate its superior performance over existing methods in the presence of label noise.
翻訳日:2024-02-06 22:49:21 公開日:2024-02-03
# LLMは関連する医療基準をどの程度引用するか? 評価の枠組みと分析

How well do LLMs cite relevant medical references? An evaluation framework and analyses ( http://arxiv.org/abs/2402.02008v1 )

ライセンス: Link先を確認
Kevin Wu, Eric Wu, Ally Cassasola, Angela Zhang, Kevin Wei, Teresa Nguyen, Sith Riantawan, Patricia Shi Riantawan, Daniel E. Ho, James Zou(参考訳) 大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。 近年の商業用LLMは、特に、その応答をサポートするためにソースを引用する能力がある。 本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか? これに答えるために、我々は3つの貢献を提案します。 まず,専門家の医療アノテーションは,スケーラブルな評価のために高価かつ時間を要するボトルネックとなるため,GPT-4は情報源の妥当性を検証する上で極めて正確であり,医師会の88%と一致していることを示す。 第2に, エンドツーエンドで自動化されたパイプラインである‘textit{SourceCheckup} を開発し, 1200件の質問から上位5つのLLMを評価し, 合計40万組のステートメントとソースを収集した。 興味深いことに、LLM応答の約50%から90%は、それらが提供するソースによって完全にはサポートされていない。 また,検索拡張生成(RAG)によるGPT-4の評価を行い,回答の約半数が完全にはサポートされていないにもかかわらず,個々の文の約30%がサポートされていないことを確認した。 第3に、今後の評価のために、キュレートされた医療質問と専門家アノテーションのデータセットをオープンソース化する。 LLMの急速な発展と、誤った医療情報や時代遅れの医療情報の潜在的影響を考えると、関連性があり信頼できる医療基準を作成する能力についても理解と定量化が不可欠である。

Large language models (LLMs) are currently being used to answer medical questions across a variety of clinical domains. Recent top-performing commercial LLMs, in particular, are also capable of citing sources to support their responses. In this paper, we ask: do the sources that LLMs generate actually support the claims that they make? To answer this, we propose three contributions. First, as expert medical annotations are an expensive and time-consuming bottleneck for scalable evaluation, we demonstrate that GPT-4 is highly accurate in validating source relevance, agreeing 88% of the time with a panel of medical doctors. Second, we develop an end-to-end, automated pipeline called \textit{SourceCheckup} and use it to evaluate five top-performing LLMs on a dataset of 1200 generated questions, totaling over 40K pairs of statements and sources. Interestingly, we find that between ~50% to 90% of LLM responses are not fully supported by the sources they provide. We also evaluate GPT-4 with retrieval augmented generation (RAG) and find that, even still, around 30\% of individual statements are unsupported, while nearly half of its responses are not fully supported. Third, we open-source our curated dataset of medical questions and expert annotations for future evaluations. Given the rapid pace of LLM development and the potential harms of incorrect or outdated medical information, it is crucial to also understand and quantify their capability to produce relevant, trustworthy medical references.
翻訳日:2024-02-06 22:49:00 公開日:2024-02-03
# 一級分類による時系列異常検出の理解

Understanding Time Series Anomaly State Detection through One-Class Classification ( http://arxiv.org/abs/2402.02007v1 )

ライセンス: Link先を確認
Hanxu Zhou, Yuan Zhang, Guangjie Leng, Ruofan Wang, Zhi-Qin John Xu(参考訳) 長い間、時系列異常検出の研究は、主に特定の時系列内の外れ値を見つけることに焦点を当ててきた。 他の実用的な応用シナリオでは、標準的な時系列が与えられると仮定し、他のテスト時系列が標準時系列から逸脱しているかどうかを判断する方法、これは1つのクラス分類(occ)で議論されている問題とより似ている。 そこで本論文では,OCCによる時系列異常検出問題を再検討し,これを「時系列異常状態検出問題」と呼ぶ。 まず確率過程と仮説テストを用いて「時系列異常状態検出問題」とその対応する異常を厳密に定義する。 次に,時系列分類データセットを用いて,問題に対応する人工データセットを構築する。 我々は38の異常検出アルゴリズムをコンパイルし、この問題に対処するためにいくつかのアルゴリズムを修正する。 最後に、多数の実験を通して、様々な時系列異常検出アルゴリズムの実際の性能を比較し、研究者による今後の研究への洞察と方向性を提供する。

For a long time, research on time series anomaly detection has mainly focused on finding outliers within a given time series. Admittedly, this is consistent with some practical problems, but in other practical application scenarios, people are concerned about: assuming a standard time series is given, how to judge whether another test time series deviates from the standard time series, which is more similar to the problem discussed in one-class classification (OCC). Therefore, in this article, we try to re-understand and define the time series anomaly detection problem through OCC, which we call 'time series anomaly state detection problem'. We first use stochastic processes and hypothesis testing to strictly define the 'time series anomaly state detection problem', and its corresponding anomalies. Then, we use the time series classification dataset to construct an artificial dataset corresponding to the problem. We compile 38 anomaly detection algorithms and correct some of the algorithms to adapt to handle this problem. Finally, through a large number of experiments, we fairly compare the actual performance of various time series anomaly detection algorithms, providing insights and directions for future research by researchers.
翻訳日:2024-02-06 22:48:34 公開日:2024-02-03
# PresAIse - 企業の規範型AIソリューション

PresAIse, An Enterprises Prescriptive AI Solution ( http://arxiv.org/abs/2402.02006v1 )

ライセンス: Link先を確認
Wei Sun, Scott McFaddin, Linh Ha Tran, Shivaram Subramanian, Kristjan Greenewald, Yeshi Tenzin, Zack Xue, Youssef Drissi, Markus Ettl(参考訳) 規範的AIは意思決定の変革であり、因果的な洞察と行動可能なレコメンデーションを提供する。 その大きな可能性にもかかわらず、企業の採用はしばしばいくつかの課題に直面している。 最初の課題は、適切な意思決定の前提条件である正確な因果推論のための観測データの制限によって引き起こされる。 2つ目は、企業の意思決定設定に不可欠なレコメンデーションの解釈可能性に関するものである。 第3の課題は、データサイエンティストとビジネスユーザの間のサイロであり、効果的なコラボレーションを妨げる。 本稿は、IBM Researchのイニシアチブの概要であり、一連の規範的AIソリューションを提供することによって、これらの課題のいくつかに対処することを目的としている。 さまざまな研究論文から洞察を得て、ソリューションスイートには、スケーラブルな因果推論方法、解釈可能な意思決定アプローチ、対話エージェントを介して通信ギャップを橋渡しする大規模言語モデル(LLM)の統合が含まれている。 概念実証であるPresAIseは、非MLの専門家が自然言語インターフェースを介して規範的なAIモデルと対話できるようにし、戦略的意思決定のための高度な分析を民主化することで、ソリューションの可能性を示す。

Prescriptive AI represents a transformative shift in decision-making, offering causal insights and actionable recommendations. Despite its huge potential, enterprise adoption often faces several challenges. The first challenge is caused by the limitations of observational data for accurate causal inference which is typically a prerequisite for good decision-making. The second pertains to the interpretability of recommendations, which is crucial for enterprise decision-making settings. The third challenge is the silos between data scientists and business users, hindering effective collaboration. This paper outlines an initiative from IBM Research, aiming to address some of these challenges by offering a suite of prescriptive AI solutions. Leveraging insights from various research papers, the solution suite includes scalable causal inference methods, interpretable decision-making approaches, and the integration of large language models (LLMs) to bridge communication gaps via a conversation agent. A proof-of-concept, PresAIse, demonstrates the solutions' potential by enabling non-ML experts to interact with prescriptive AI models via a natural language interface, democratizing advanced analytics for strategic decision-making.
翻訳日:2024-02-06 22:48:15 公開日:2024-02-03
# Lookahead decoding を用いたLLM推論の逐次依存性の分解

Break the Sequential Dependency of LLM Inference Using Lookahead Decoding ( http://arxiv.org/abs/2402.02057v1 )

ライセンス: Link先を確認
Yichao Fu, Peter Bailis, Ion Stoica, Hao Zhang(参考訳) 大規模言語モデル(LLM)の自己回帰復号化はメモリ帯域幅が制限されているため、現代のアクセラレーターの並列処理能力は高いレイテンシとかなりの無駄となる。 LLMデコーディングを高速化する既存の方法は、しばしばドラフトモデル(投機的デコーディングなど)を必要とする。 本稿では,補助モデルやデータストアを必要とせず,llm復号を高速化する並列復号アルゴリズムであるlookahead decodingを提案する。 ステップ毎のログ(flops)をトレーディングすることで、デコードステップ全体の数を削減し、シングルまたは複数のアクセラレータでより並列化可能で、並行メモリ効率の良い注意(フラッシュアテンションなど)と互換性がある。 Lookaheadデコーディングの実装により,MT-benchでは1.8倍,コード補完タスクでは4倍の高速化を実現した。 私たちのコードはhttps://github.com/hao-ai-lab/LookaheadDecodingで利用可能です。

Autoregressive decoding of large language models (LLMs) is memory bandwidth bounded, resulting in high latency and significant wastes of the parallel processing power of modern accelerators. Existing methods for accelerating LLM decoding often require a draft model (e.g., speculative decoding), which is nontrivial to obtain and unable to generalize. In this paper, we introduce Lookahead decoding, an exact, parallel decoding algorithm that accelerates LLM decoding without needing auxiliary models or data stores. It allows trading per-step log(FLOPs) to reduce the number of total decoding steps, is more parallelizable on single or multiple modern accelerators, and is compatible with concurrent memory-efficient attention (e.g., FlashAttention). Our implementation of Lookahead decoding can speed up autoregressive decoding by up to 1.8x on MT-bench and 4x with strong scaling on multiple GPUs in code completion tasks. Our code is avialable at https://github.com/hao-ai-lab/LookaheadDecoding
翻訳日:2024-02-06 22:43:08 公開日:2024-02-03
# tci-former:赤外線小型ターゲット検出用熱伝導インスパイアトランス

TCI-Former: Thermal Conduction-Inspired Transformer for Infrared Small Target Detection ( http://arxiv.org/abs/2402.02046v1 )

ライセンス: Link先を確認
Tianxiang Chen, Zhentao Tan, Qi Chu, Yue Wu, Bin Liu, Nenghai Yu(参考訳) 赤外線小目標検出(ISTD)は国家安全保障に重要であり、軍事分野で広く応用されている。 ISTDは、背景から小さなターゲットピクセルを分割することを目的としている。 ほとんどの ISTD ネットワークは特徴抽出ブロックや特徴融合モジュールの設計に重点を置いているが、特徴写像の進化の観点から ISTD プロセスを記述することは稀である。 ISTDプロセスでは、ネットワークの注意は徐々にターゲット領域へとシフトする。 我々は, この過程を, 周辺画素との畳み込み, プール, 相互作用を通じて, 対象領域への特徴写像ピクセルの方向移動として抽象化し, 周辺変数や粒子に拘束された熱粒子の動きと類似することができる。 本稿では, 熱伝導理論に基づく熱伝導型変圧器(TCI-Former)を提案する。 熱力学における熱伝導微分方程式により、画像領域における画素移動微分方程式(PMDE)を導出し、さらに熱伝導誘起アテンション(TCIA)と熱伝導境界モジュール(TCBM)の2つのモジュールを開発する。 TCIAはPMDEと有限差分法を組み込んで数値近似に到達し、対象の身体の特徴を抽出することができる。 境界領域の誤差をさらに取り除くため、tcbmは境界マスクによって設計・監督され、詳細な境界詳細でターゲットボディの特徴を洗練する。 IRSTD-1kとNUAA-SIRSTの実験は,本手法の優位性を示した。

Infrared small target detection (ISTD) is critical to national security and has been extensively applied in military areas. ISTD aims to segment small target pixels from background. Most ISTD networks focus on designing feature extraction blocks or feature fusion modules, but rarely describe the ISTD process from the feature map evolution perspective. In the ISTD process, the network attention gradually shifts towards target areas. We abstract this process as the directional movement of feature map pixels to target areas through convolution, pooling and interactions with surrounding pixels, which can be analogous to the movement of thermal particles constrained by surrounding variables and particles. In light of this analogy, we propose Thermal Conduction-Inspired Transformer (TCI-Former) based on the theoretical principles of thermal conduction. According to thermal conduction differential equation in heat dynamics, we derive the pixel movement differential equation (PMDE) in the image domain and further develop two modules: Thermal Conduction-Inspired Attention (TCIA) and Thermal Conduction Boundary Module (TCBM). TCIA incorporates finite difference method with PMDE to reach a numerical approximation so that target body features can be extracted. To further remove errors in boundary areas, TCBM is designed and supervised by boundary masks to refine target body features with fine boundary details. Experiments on IRSTD-1k and NUAA-SIRST demonstrate the superiority of our method.
翻訳日:2024-02-06 22:42:48 公開日:2024-02-03
# MLIP:ダイバージェンスエンコーダと知識誘導型コントラスト学習による医用視覚表現の強化

MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning ( http://arxiv.org/abs/2402.02045v1 )

ライセンス: Link先を確認
Zhe Li, Laurence T. Yang, Bocheng Ren, Xin Nie, Zhangyang Gao, Cheng Tan, Stan Z. Li(参考訳) 注釈付きデータの不足は、医療報告を医用視覚表現学習の補助信号として活用する教師なし事前訓練手法に大きな関心を呼んだ。 しかし、既存の研究は、医用視覚表現の多粒性の性質を軽視し、異なる粒度にわたるモデルの一般化性を改善するための適切なコントラスト学習技法を欠いているため、画像テキスト情報の未利用につながる。 そこで我々は,画像テキストのコントラスト学習を通じて,言語情報を視覚領域に統合するためのガイド信号として,ドメイン固有の医療知識を活用する新しいフレームワークMLIPを提案する。 私たちのモデルは、発散エンコーダの設計したグローバルコントラスト学習、局所トークン知識パッチアライメントコントラスト学習、知識誘導カテゴリレベルのコントラスト学習と専門家知識を含む。 画像分類,オブジェクト検出,意味セグメンテーションなどのタスクの転送性能向上におけるモデルの有効性を実験的に評価した。 特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。

The scarcity of annotated data has sparked significant interest in unsupervised pre-training methods that leverage medical reports as auxiliary signals for medical visual representation learning. However, existing research overlooks the multi-granularity nature of medical visual representation and lacks suitable contrastive learning techniques to improve the models' generalizability across different granularities, leading to the underutilization of image-text information. To address this, we propose MLIP, a novel framework leveraging domain-specific medical knowledge as guiding signals to integrate language information into the visual domain through image-text contrastive learning. Our model includes global contrastive learning with our designed divergence encoder, local token-knowledge-patch alignment contrastive learning, and knowledge-guided category-level contrastive learning with expert knowledge. Experimental evaluations reveal the efficacy of our model in enhancing transfer performance for tasks such as image classification, object detection, and semantic segmentation. Notably, MLIP surpasses state-of-the-art methods even with limited annotated data, highlighting the potential of multimodal pre-training in advancing medical representation learning.
翻訳日:2024-02-06 22:42:23 公開日:2024-02-03
# 局所適応量子化によるストリーミングベクトル探索

Locally-Adaptive Quantization for Streaming Vector Search ( http://arxiv.org/abs/2402.02044v1 )

ライセンス: Link先を確認
Cecilia Aguerrebere and Mark Hildebrand and Ishwar Singh Bhati and Theodore Willke and Mariano Tepper(参考訳) 大量のベクトル集合の中で、与えられたクエリに最もよく似たベクトル埋め込みを取得することは、長い間、数え切れないほど現実世界のアプリケーションの主要なコンポーネントであった。 最近導入されたRetrieval-Augmented Generationは最も顕著な例の1つである。 これらのアプリケーションの多くは、データベースが時間とともに進化し、新しいデータを挿入し、古いデータを削除する。 このような場合、検索問題はストリーミング類似検索として知られている。 高効率ベクトル圧縮法であるLocally-Adaptive Vector Quantization (LVQ)は、非進化的データベースに対して最先端の検索性能をもたらすが、ストリーミング設定における有用性はまだ確立されていない。 本研究では,ストリーミング類似度探索におけるLVQについて検討する。 本稿では,LVQの検索性能を最大28%向上するTurbo LVQとMulti-means LVQの2つの改良点を紹介する。 我々の研究は、LVQとその新しい変種が高速ベクトル探索を可能にし、同じ分散データに対して最大9.4倍、データ分散シフトの挑戦的なシナリオ(すなわち、データの統計的分布が時間とともに変化する場合)下で最大8.8倍の速度で競合する。 高速な類似検索のためのオープンソースのライブラリであるScalable Vector Searchの一部として、私たちのコントリビューションをリリースしています。

Retrieving the most similar vector embeddings to a given query among a massive collection of vectors has long been a key component of countless real-world applications. The recently introduced Retrieval-Augmented Generation is one of the most prominent examples. For many of these applications, the database evolves over time by inserting new data and removing outdated data. In these cases, the retrieval problem is known as streaming similarity search. While Locally-Adaptive Vector Quantization (LVQ), a highly efficient vector compression method, yields state-of-the-art search performance for non-evolving databases, its usefulness in the streaming setting has not been yet established. In this work, we study LVQ in streaming similarity search. In support of our evaluation, we introduce two improvements of LVQ: Turbo LVQ and multi-means LVQ that boost its search performance by up to 28% and 27%, respectively. Our studies show that LVQ and its new variants enable blazing fast vector search, outperforming its closest competitor by up to 9.4x for identically distributed data and by up to 8.8x under the challenging scenario of data distribution shifts (i.e., where the statistical distribution of the data changes over time). We release our contributions as part of Scalable Vector Search, an open-source library for high-performance similarity search.
翻訳日:2024-02-06 22:41:59 公開日:2024-02-03
# 知的・選択的センサデータ伝送のためのプラグイン型AIモジュール

A Plug-in Tiny AI Module for Intelligent and Selective Sensor Data Transmission ( http://arxiv.org/abs/2402.02043v1 )

ライセンス: Link先を確認
Wenjun Huang, Arghavan Rezvani, Hanning Chen, Yang Ni, Sanggeon Yun, Sungheon Jeong, and Mohsen Imani(参考訳) IoT(Internet of Things)のアプリケーションは、機械学習を使用してセンサ生成データを分析する。 しかし、大きな課題は、現在のセンシングシステムに標的となるインテリジェンスの欠如であり、膨大なデータ生成と計算と通信コストの増加につながっている。 この課題に対処するために,センサの近くに置かれる高効率機械学習モデルを統合することにより,センサフレームワークにインテリジェントなデータ伝送機能を持たせる新しいセンシングモジュールを提案する。 このモデルは,センサシステムに対して,データ送信の頻度を規制することにより,無関係な情報を破棄しながら,貴重なデータのみを送信するための迅速なフィードバックを提供する。 近接センサモデルは量子化され、リアルタイムセンサー制御に最適化される。 フレームワークの性能を高めるため、トレーニングプロセスをカスタマイズし、時間情報を利用した「怠慢」センサ非活性化戦略を導入する。 提案手法は他のiotフレームワークと直交しており、選択的データ送信のプラグインと見なすことができる。 フレームワークは実装され、ソフトウェアコンポーネントとハードウェアコンポーネントの両方を含んでいる。 実験により,提案モジュールを用いたフレームワークは,エネルギー消費とストレージの面で85%以上の効率を実現し,性能への影響を無視できることを示した。 この方法論は、センサーから出力されるデータを大幅に削減し、幅広いIoTアプリケーションに恩恵をもたらす可能性がある。

Applications in the Internet of Things (IoT) utilize machine learning to analyze sensor-generated data. However, a major challenge lies in the lack of targeted intelligence in current sensing systems, leading to vast data generation and increased computational and communication costs. To address this challenge, we propose a novel sensing module to equip sensing frameworks with intelligent data transmission capabilities by integrating a highly efficient machine learning model placed near the sensor. This model provides prompt feedback for the sensing system to transmit only valuable data while discarding irrelevant information by regulating the frequency of data transmission. The near-sensor model is quantized and optimized for real-time sensor control. To enhance the framework's performance, the training process is customized and a "lazy" sensor deactivation strategy utilizing temporal information is introduced. The suggested method is orthogonal to other IoT frameworks and can be considered as a plugin for selective data transmission. The framework is implemented, encompassing both software and hardware components. The experiments demonstrate that the framework utilizing the suggested module achieves over 85% system efficiency in terms of energy consumption and storage, with negligible impact on performance. This methodology has the potential to significantly reduce data output from sensors, benefiting a wide range of IoT applications.
翻訳日:2024-02-06 22:41:36 公開日:2024-02-03
# 神経密度比推定のための$\alpha$-divergence loss関数

$\alpha$-Divergence Loss Function for Neural Density Ratio Estimation ( http://arxiv.org/abs/2402.02041v1 )

ライセンス: Link先を確認
Yoshiaki Kitazawa(参考訳) 近年、ニューラルネットワークは、機械学習の基本技術である密度比推定(DRE)の最先端の結果を生み出している。 しかしながら、既存の手法では、kullback-leibler (kl)-divergenceの大きなサンプル要件、列車損失勾配の消失、損失関数の偏り勾配といったdreの損失関数から生じる最適化の問題がある。 そこで本稿では,簡単な実装と安定な最適化を提供する$\alpha$-divergence loss関数($\alpha$-div)を提案する。 さらに,提案した損失関数の技術的正当性を示す。 提案した損失関数の安定性を実証的に検証し,DREタスクの推定精度を検討した。 さらに,提案した損失関数を用いたDREのサンプル要件を,高次元DREタスクにおける一般的な問題として次元性の呪いを結び付ける,$L_1$エラーの上限という観点から提示する。

Recently, neural networks have produced state-of-the-art results for density-ratio estimation (DRE), a fundamental technique in machine learning. However, existing methods bear optimization issues that arise from the loss functions of DRE: a large sample requirement of Kullback--Leibler (KL)-divergence, vanishing of train loss gradients, and biased gradients of the loss functions. Thus, an $\alpha$-divergence loss function ($\alpha$-Div) that offers concise implementation and stable optimization is proposed in this paper. Furthermore, technical justifications for the proposed loss function are presented. The stability of the proposed loss function is empirically demonstrated and the estimation accuracy of DRE tasks is investigated. Additionally, this study presents a sample requirement for DRE using the proposed loss function in terms of the upper bound of $L_1$ error, which connects a curse of dimensionality as a common problem in high-dimensional DRE tasks.
翻訳日:2024-02-06 22:41:17 公開日:2024-02-03
# EffiBench: 自動生成コードの効率をベンチマークする

EffiBench: Benchmarking the Efficiency of Automatically Generated Code ( http://arxiv.org/abs/2402.02037v1 )

ライセンス: Link先を確認
Dong Huang, Jie M.Zhang, Yuhao Qing, Heming Cui(参考訳) コード生成モデルは、コード補完、デバッギング、コード翻訳といったタスクを支援することで、ソフトウェア開発を支援するためにますます不可欠なものになっています。 現在の研究では、コード生成モデルによって生成されるコードの正確性について徹底的に検討されているが、重要な側面、すなわち生成されたコードの効率性はしばしば無視されている。 本稿では,コード生成モデルが生成するコード効率を評価するために,1000の効率クリティカルなコーディング問題を持つベンチマークeffibenchを提案する。 EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。 各問題は実行可能な人間による正準解とペアリングされる。 EffiBenchでは、効率的なコードを生成する上で、21の大規模言語モデル(13のオープンソースと8のクローズドソース)の能力を実証的に検証する。 その結果, GPT-4-turboはPalm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, GPT-3.5を著しく上回った。 それでも、そのコード効率は、人間の書いた正準ソリューションの効率よりも悪い。 特に、GPT-4-turbo生成コードの平均実行時間は、標準解の1.69倍と45.49倍である。

Code generation models have increasingly become integral to aiding software development, offering assistance in tasks such as code completion, debugging, and code translation. Although current research has thoroughly examined the correctness of code produced by code generation models, a vital aspect, i.e., the efficiency of the generated code, has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems for assessing the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution. With EffiBench, we empirically examine the capability of 21 Large Language Models (13 open-sourced and 8 closed-sourced) in generating efficient code. The results demonstrate that GPT-4-turbo generates the most efficient code, significantly outperforming Palm-2-chat-bison, Claude-instant-1, Gemini-pro, GPT-4, and GPT-3.5. Nevertheless, its code efficiency is still worse than the efficiency of human-written canonical solutions. In particular, the average and worst execution time of GPT-4-turbo generated code is 1.69 and 45.49 times that of the canonical solutions.
翻訳日:2024-02-06 22:40:58 公開日:2024-02-03
# In-Distributed Proxiesを用いたグラフニューラルネットワークの解釈

Interpreting Graph Neural Networks with In-Distributed Proxies ( http://arxiv.org/abs/2402.02036v1 )

ライセンス: Link先を確認
Zhuomin Chen, Jiaxing Zhang, Jingchao Ni, Xiaoting Li, Yuchen Bian, Md Mezbahul Islam, Ananda Mohan Mondal, Hua Wei, Dongsheng Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ処理においてビルディングブロックとなり、重要な領域で広く応用されている。 高度なアプリケーションにGNNをデプロイする必要性の高まりは、意思決定プロセスにおけるユーザ説明可能性を必要としている。 GNNの説明可能性のための一般的なパラダイムは、ラベルを元のグラフと比較することで説明可能な部分グラフを特定することである。 この課題は、トレーニングセット内の元のグラフから説明可能なサブグラフの集合へのかなりの分布シフトのため、サブグラフによるラベルの正確な予測が困難である。 そこで本稿では,トレーニングデータの分布にある説明可能な部分グラフに対して,プロキシグラフを生成する新しい手法を提案する。 グラフ生成器を用いてプロキシグラフを生成するパラメトリック手法を提案する。 情報理論に基づく新たなトレーニング目的は、プロキシグラフがトレーニングデータの分布に従属するだけでなく、重要な説明因子も保持することを保証する。 このような生成されたプロキシグラフは、説明可能なサブグラフの真のラベルの予測を近似するために確実に使用できる。 提案手法は, GNNのより正確な説明が可能であることを示す。

Graph Neural Networks (GNNs) have become a building block in graph data processing, with wide applications in critical domains. The growing needs to deploy GNNs in high-stakes applications necessitate explainability for users in the decision-making processes. A popular paradigm for the explainability of GNNs is to identify explainable subgraphs by comparing their labels with the ones of original graphs. This task is challenging due to the substantial distributional shift from the original graphs in the training set to the set of explainable subgraphs, which prevents accurate prediction of labels with the subgraphs. To address it, in this paper, we propose a novel method that generates proxy graphs for explainable subgraphs that are in the distribution of training data. We introduce a parametric method that employs graph generators to produce proxy graphs. A new training objective based on information theory is designed to ensure that proxy graphs not only adhere to the distribution of training data but also preserve essential explanatory factors. Such generated proxy graphs can be reliably used for approximating the predictions of the true labels of explainable subgraphs. Empirical evaluations across various datasets demonstrate our method achieves more accurate explanations for GNNs.
翻訳日:2024-02-06 22:40:38 公開日:2024-02-03
# 深部ニューラルネットワークにおけるバックドアに対するユニバーサルトレーニング後リバースエンジニアリング防御

Universal Post-Training Reverse-Engineering Defense Against Backdoors in Deep Neural Networks ( http://arxiv.org/abs/2402.02034v1 )

ライセンス: Link先を確認
Xi Li, Hang Wang, David J. Miller and George Kesidis(参考訳) ディープニューラルネットワーク(DNN)分類器に対するバックドア攻撃に対する様々な防御策が提案されている。 ユニバーサルメソッドは、攻撃者が使用する組み込みメカニズムに関係なく、バックドアを確実に検出および/または緩和することを目指している。 本稿では,防衛されたDNNの内部特徴マップを用いてバックドアを検出し,そのターゲットクラスを識別し,トレーニング後(トレーニングデータセットへのアクセスなしで)動作させることができるとともに,様々な構成機構(すなわち普遍性)に対して極めて有効であり,計算オーバーヘッドが低く,スケーラブルである新しい検出器について述べる。 CIFAR-10画像分類器に対する異なる攻撃に対する検出手法の評価を行った。

A variety of defenses have been proposed against backdoors attacks on deep neural network (DNN) classifiers. Universal methods seek to reliably detect and/or mitigate backdoors irrespective of the incorporation mechanism used by the attacker, while reverse-engineering methods often explicitly assume one. In this paper, we describe a new detector that: relies on internal feature map of the defended DNN to detect and reverse-engineer the backdoor and identify its target class; can operate post-training (without access to the training dataset); is highly effective for various incorporation mechanisms (i.e., is universal); and which has low computational overhead and so is scalable. Our detection approach is evaluated for different attacks on a benchmark CIFAR-10 image classifier.
翻訳日:2024-02-06 22:40:15 公開日:2024-02-03
# マルチパーティ多目的最適化に関するCEC 2024コンペティションのベンチマーク

Benchmark for CEC 2024 Competition on Multiparty Multiobjective Optimization ( http://arxiv.org/abs/2402.02033v1 )

ライセンス: Link先を確認
Wenjian Luo, Peilan Xu, Shengxiang Yang, Yuhui Shi(参考訳) このコンペティションは、複数の意思決定者が相反する目標を持つマルチパーティ多目的最適化問題(mpmops)に焦点を当てている。 その重要性にもかかわらず、MPMOPは従来の多目的最適化と比較してまだ検討されていない。 このコンペティションは、研究者たちにカスタマイズされたモデリングアプローチの探求を促すことで、このギャップに対処することを目指している。 テストスイートは、一般的なPareto最適解の問題と、未知解に対するbiparty Multiobjective UAV Path Planning(BPMO-UAVPP)の問題の2つで構成されている。 第1部最適化アルゴリズムは,MPIGD(Multiparty Inverted Generational Distance)を用いて評価し,第2部はMPHV(Multiparty Hypervolume)メトリクスを用いて評価する。 すべての問題をランク付けする平均アルゴリズムはパフォーマンスベンチマークとして機能する。

The competition focuses on Multiparty Multiobjective Optimization Problems (MPMOPs), where multiple decision makers have conflicting objectives, as seen in applications like UAV path planning. Despite their importance, MPMOPs remain understudied in comparison to conventional multiobjective optimization. The competition aims to address this gap by encouraging researchers to explore tailored modeling approaches. The test suite comprises two parts: problems with common Pareto optimal solutions and Biparty Multiobjective UAV Path Planning (BPMO-UAVPP) problems with unknown solutions. Optimization algorithms for the first part are evaluated using Multiparty Inverted Generational Distance (MPIGD), and the second part is evaluated using Multiparty Hypervolume (MPHV) metrics. The average algorithm ranking across all problems serves as a performance benchmark.
翻訳日:2024-02-06 22:39:52 公開日:2024-02-03
# robusttsf:異常を考慮したロバスト時系列予測の理論と設計

RobustTSF: Towards Theory and Design of Robust Time Series Forecasting with Anomalies ( http://arxiv.org/abs/2402.02032v1 )

ライセンス: Link先を確認
Hao Cheng, Qingsong Wen, Yang Liu, Liang Sun(参考訳) 時系列予測は多くの実世界のアプリケーションにおいて重要かつ最前線の課題である。 しかし、ほとんどの時系列予測技術は、トレーニングデータは異常なくクリーンであると仮定している。 この仮定は、収集された時系列データを実際に汚染することができるため、非現実的である。 予測モデルは、異常のある時系列によって直接訓練された場合、劣る。 したがって,汚染データからロバスト予測モデルを自動的に学習する手法を開発することが不可欠である。 本稿では,まず3種類の異常を統計的に定義し,これらの異常が存在する場合の損失ロバスト性および試料ロバスト性について理論的および実験的に解析する。 そこで本研究では,ロバスト予測モデルを学ぶための簡便で効率的なアルゴリズムを提案する。 広範な実験により,本手法は高いロバスト性を示し,既存の手法よりも優れていることがわかった。 コードはhttps://github.com/haochenglouis/robusttsfで入手できる。

Time series forecasting is an important and forefront task in many real-world applications. However, most of time series forecasting techniques assume that the training data is clean without anomalies. This assumption is unrealistic since the collected time series data can be contaminated in practice. The forecasting model will be inferior if it is directly trained by time series with anomalies. Thus it is essential to develop methods to automatically learn a robust forecasting model from the contaminated data. In this paper, we first statistically define three types of anomalies, then theoretically and experimentally analyze the loss robustness and sample robustness when these anomalies exist. Based on our analyses, we propose a simple and efficient algorithm to learn a robust forecasting model. Extensive experiments show that our method is highly robust and outperforms all existing approaches. The code is available at https://github.com/haochenglouis/RobustTSF.
翻訳日:2024-02-06 22:39:30 公開日:2024-02-03
# 力学系に対する多面体物理制約ニューラルネットワーク

Multi-fidelity physics constrained neural networks for dynamical systems ( http://arxiv.org/abs/2402.02031v1 )

ライセンス: Link先を確認
Hao Zhou, Sibo Cheng, Rossella Arcucci(参考訳) 物理制約付きニューラルネットワークは、純粋にデータ駆動型モデルと比較して予測堅牢性を高めるために一般的に用いられ、モデルトレーニングプロセス中に物理的制約損失を含めることで達成される。 しかし、物理に制約のあるニューラルネットワークの大きな課題の1つは、特に高次元システムにおけるトレーニングの複雑さである。 実際、従来の物理制約付きモデルは、高次元場における物理的制約の評価を必要とする特異忠実度データに依存しており、計算困難を引き起こす。 さらに、ニューラルネットワークの入力サイズが一定であるため、マルチ忠実度トレーニングデータを用いるのも面倒である。 本稿では,マルチスケール物理制約付きニューラルネットワーク(mspcnn,multi-scale physics-constrained neural network)を提案する。 さらに、複数のデコーダが同時に訓練され、入力の潜在表現を様々な忠実な物理空間にマッピングする。 その結果、予測モデルのトレーニング中に、低い忠実度空間内で物理的制約を評価でき、トレーニング効率と精度のトレードオフが生じる。 さらに、従来の手法とは異なり、MSPCNNは予測モデルをトレーニングするために複数の忠実度データも利用している。 本研究では,2次元ハンバーガーシステムと浅水システムという2つの流体力学問題に対するmspcnnの性能評価を行った。 低忠実度場に物理的制約を導入する際の予測精度と雑音頑健性の向上を数値的に示す。 一方,高忠実度フィールドよりも低忠実度フィールドでの物理的制約損失を計算することで,トレーニングの複雑さを著しく低減することができる。

Physics-constrained neural networks are commonly employed to enhance prediction robustness compared to purely data-driven models, achieved through the inclusion of physical constraint losses during the model training process. However, one of the major challenges of physics-constrained neural networks consists of the training complexity especially for high-dimensional systems. In fact, conventional physics-constrained models rely on singular-fidelity data necessitating the assessment of physical constraints within high-dimensional fields, which introduces computational difficulties. Furthermore, due to the fixed input size of the neural networks, employing multi-fidelity training data can also be cumbersome. In this paper, we propose the Multi-Scale Physics-Constrained Neural Network (MSPCNN), which offers a novel methodology for incorporating data with different levels of fidelity into a unified latent space through a customised multi-fidelity autoencoder. Additionally, multiple decoders are concurrently trained to map latent representations of inputs into various fidelity physical spaces. As a result, during the training of predictive models, physical constraints can be evaluated within low-fidelity spaces, yielding a trade-off between training efficiency and accuracy. In addition, unlike conventional methods, MSPCNN also manages to employ multi-fidelity data to train the predictive model. We assess the performance of MSPCNN in two fluid dynamics problems, namely a two-dimensional Burgers' system and a shallow water system. Numerical results clearly demonstrate the enhancement of prediction accuracy and noise robustness when introducing physical constraints in low-fidelity fields. On the other hand, as expected, the training complexity can be significantly reduced by computing physical constraint loss in the low-fidelity field rather than the high-fidelity one.
翻訳日:2024-02-06 22:39:07 公開日:2024-02-03
# Panacea: LLMの優先適応によるパレートアライメント

Panacea: Pareto Alignment via Preference Adaptation for LLMs ( http://arxiv.org/abs/2402.02030v1 )

ライセンス: Link先を確認
Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Qingfu Zhang, Siyuan Qi, Yaodong Yang(参考訳) 現在の大規模言語モデルアライメントの方法は、通常、スカラー人間の好みラベルを使用する。 しかし、この慣習は人間の好みの多次元的・異質な性質を過度に単純化し、表現力の低下や誤認につながる傾向がある。 本稿では,多次元優先最適化問題としてアライメントを再構成する革新的手法であるPanaceaを提案する。 panaceaは、オンラインとパレートを最適化して、さらなるチューニングを必要とせずに様々な好みに適応できる単一モデルを訓練する。 ここでの大きな課題は、非常に多くのパラメータによって制御されているにもかかわらず、低次元の選好ベクトルを使用してモデルの振る舞いを導くことである。 これに対処するため、panaceaは特異値分解(single value decomposition:svd)ベースの低ランク適応を使用するように設計されている。 理論的には, パナセアは軽度条件下で共通の損失凝集法でパレトフロント全体を回復する。 さらに,様々な最適化手法を用いて,人間の好みのスペクトルを表現するために単一のllmを調整できることを示す実験を行った。 私たちの研究は、モデルを効率的かつ効率的に、多様で複雑に調整し、制御可能でパレート最適な方法で人間の好みに合わせるための一歩を踏み出します。

Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to oversimplify the multi-dimensional and heterogeneous nature of human preferences, leading to reduced expressivity and even misalignment. This paper presents Panacea, an innovative approach that reframes alignment as a multi-dimensional preference optimization problem. Panacea trains a single model capable of adapting online and Pareto-optimally to diverse sets of preferences without the need for further tuning. A major challenge here is using a low-dimensional preference vector to guide the model's behavior, despite it being governed by an overwhelmingly large number of parameters. To address this, Panacea is designed to use singular value decomposition (SVD)-based low-rank adaptation, which allows the preference vector to be simply injected online as singular values. Theoretically, we prove that Panacea recovers the entire Pareto front with common loss aggregation methods under mild conditions. Moreover, our experiments demonstrate, for the first time, the feasibility of aligning a single LLM to represent a spectrum of human preferences through various optimization methods. Our work marks a step forward in effectively and efficiently aligning models to diverse and intricate human preferences in a controllable and Pareto-optimal manner.
翻訳日:2024-02-06 22:37:48 公開日:2024-02-03
# ScribFormer:CNNによる医療画像の分割を高速化するTransformer

ScribFormer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation ( http://arxiv.org/abs/2402.02029v1 )

ライセンス: Link先を確認
Zihan Li, Yuan Zheng, Dandan Shan, Shuzhou Yang, Qingde Li, Beizhan Wang, Yuanting Zhang, Qingqi Hong, Dinggang Shen(参考訳) 最近のスクリブル教師付きセグメンテーション手法では、エンコーダ-デコーダアーキテクチャを持つCNNフレームワークが一般的である。 複数の利点があるが、一般的にこのフレームワークは、局所受容フィールドを持つ畳み込み層に対する小規模の機能依存性のみをキャプチャできるため、スクリブルアノテーションによって提供される限られた情報からグローバル形状情報を学習することは困難である。 そこで本稿では,scribformerという医用画像分割のためのcnn-transformerハイブリッドソリューションを提案する。 提案するscribformerモデルは,cnnブランチとトランスフォーマーブランチのハイブリッド,注意誘導型クラスアクティベーションマップ(acam)ブランチの3重分岐構造を有する。 具体的には、cnnブランチはtransformerブランチと協力して、cnnから学んだローカル特徴とtransformerから得られるグローバル表現を融合させ、既存のscribble-supervised segmentationメソッドの制限を効果的に克服する。 さらに、ACAMブランチは浅い畳み込み特徴と深い畳み込み特徴の統合を支援し、モデルの性能をさらに向上させる。 2つの公開データセットと1つのプライベートデータセットに関する広範囲な実験により、我々のscribformerは最先端のscribble-supervised segmentationメソッドよりも優れたパフォーマンスを示し、完全な教師付きセグメンテーションメソッドよりも優れた結果を得ることができた。 コードはhttps://github.com/huanglizi/scribformerでリリースされている。

Most recent scribble-supervised segmentation methods commonly adopt a CNN framework with an encoder-decoder architecture. Despite its multiple benefits, this framework generally can only capture small-range feature dependency for the convolutional layer with the local receptive field, which makes it difficult to learn global shape information from the limited information provided by scribble annotations. To address this issue, this paper proposes a new CNN-Transformer hybrid solution for scribble-supervised medical image segmentation called ScribFormer. The proposed ScribFormer model has a triple-branch structure, i.e., the hybrid of a CNN branch, a Transformer branch, and an attention-guided class activation map (ACAM) branch. Specifically, the CNN branch collaborates with the Transformer branch to fuse the local features learned from CNN with the global representations obtained from Transformer, which can effectively overcome limitations of existing scribble-supervised segmentation methods. Furthermore, the ACAM branch assists in unifying the shallow convolution features and the deep convolution features to improve model's performance further. Extensive experiments on two public datasets and one private dataset show that our ScribFormer has superior performance over the state-of-the-art scribble-supervised segmentation methods, and achieves even better results than the fully-supervised segmentation methods. The code is released at https://github.com/HUANGLIZI/ScribFormer.
翻訳日:2024-02-06 22:36:58 公開日:2024-02-03
# ナレッジグラウンド対話におけるトレードオフのナビゲートのためのコンテンツ計画の検討

Investigating Content Planning for Navigating Trade-offs in Knowledge-Grounded Dialogue ( http://arxiv.org/abs/2402.02077v1 )

ライセンス: Link先を確認
Kushal Chawla, Hannah Rashkin, Gaurav Singh Tomar, David Reitter(参考訳) 知識に基づく対話生成は、2つの基本的かつしばしば競合する制約を満たす必要があるため、困難なタスクである。 この作業では、これらの2つの目標(特異性と属性)のトレードオフを明確化して、次のような質問を投げかけます。 応答生成前の明確なコンテンツ計画は、モデルがこの課題に対処するのに役立ちますか? そこで我々はPLEDGEというフレームワークを設計し、事前の作業で探索された様々なプラン変数を実験し、メトリックに依存しないアプローチとメトリック認識アプローチの両方をサポートする。 メトリクス認識(トレーニング中に自動メトリクスを使用する)の計画メカニズムは、自動評価では優れていますが、メトリクス非依存のメカニズムに比べ、人間の判断では低調です。 自動測度への過度な適合と、これらの測度を人間の判断に合わせるための今後の作業の必要性から、これがどのように引き起こされるのかを論じる。 この状況にコンテンツプランニングを適用することを目的とした今後の作業について,分析から得られた知見をご報告いたします。

Knowledge-grounded dialogue generation is a challenging task because it requires satisfying two fundamental yet often competing constraints: being responsive in a manner that is specific to what the conversation partner has said while also being attributable to an underlying source document. In this work, we bring this trade-off between these two objectives (specificity and attribution) to light and ask the question: Can explicit content planning before the response generation help the model to address this challenge? To answer this question, we design a framework called PLEDGE, which allows us to experiment with various plan variables explored in prior work, supporting both metric-agnostic and metric-aware approaches. While content planning shows promise, our results on whether it can actually help to navigate this trade-off are mixed -- planning mechanisms that are metric-aware (use automatic metrics during training) are better at automatic evaluations but underperform in human judgment compared to metric-agnostic mechanisms. We discuss how this may be caused by over-fitting to automatic metrics and the need for future work to better calibrate these metrics towards human judgment. We hope the observations from our analysis will inform future work that aims to apply content planning in this context.
翻訳日:2024-02-06 22:29:36 公開日:2024-02-03
# コントラスト学習とカメラの整合性を考慮したマルチクロップ・ヒューマンメッシュ・リカバリ

Multiple-Crop Human Mesh Recovery with Contrastive Learning and Camera Consistency in A Single Image ( http://arxiv.org/abs/2402.02074v1 )

ライセンス: Link先を確認
Yongwei Nie, Changzhen Liu, Chengjiang Long, Qing Zhang, Guiqing Li, Hongmin Cai(参考訳) 単一像のHuman Mesh Recovery (HMR) の問題に対処する。 従来のアプローチは主に1つの作物に基づいている。 本稿では,シングルクロップHMRを新しいマルチクロップHMRパラダイムにシフトする。 オリジナルのバウンディングボックスのシフトとスケーリングによって、複数の画像から人間をトリミングすることは、実際に実現可能であり、実装が容易であり、無視できるコストが伴うが、すぐに利用可能な視覚詳細を豊かにする。 複数の作物を入力として,これらの作物間の関係を利用して識別的特徴を抽出し,カメラの曖昧さを低減した。 具体的には,(1)同一人の作物から抽出した特徴の類似性を高めるために,コントラスト学習方式を取り入れている。 2) 対象メッシュを回帰させるために, 複数作物の特徴を融合させる, 作物を意識した融合方式を提案する。 3)全ての入力作物に対して局所カメラを計算し,局所カメラ間のカメラコンシスタンス損失を発生させ,より曖昧度の低いカメラで報いる。 以上のイノベーションに基づき,提案手法は,広範な実験で示された従来の手法を上回っている。

We tackle the problem of single-image Human Mesh Recovery (HMR). Previous approaches are mostly based on a single crop. In this paper, we shift the single-crop HMR to a novel multiple-crop HMR paradigm. Cropping a human from image multiple times by shifting and scaling the original bounding box is feasible in practice, easy to implement, and incurs neglectable cost, but immediately enriches available visual details. With multiple crops as input, we manage to leverage the relation among these crops to extract discriminative features and reduce camera ambiguity. Specifically, (1) we incorporate a contrastive learning scheme to enhance the similarity between features extracted from crops of the same human. (2) We also propose a crop-aware fusion scheme to fuse the features of multiple crops for regressing the target mesh. (3) We compute local cameras for all the input crops and build a camera-consistency loss between the local cameras, which reward us with less ambiguous cameras. Based on the above innovations, our proposed method outperforms previous approaches as demonstrated by the extensive experiments.
翻訳日:2024-02-06 22:29:13 公開日:2024-02-03
# RIDERS:ロバストセンシングのためのレーダー赤外深度推定

RIDERS: Radar-Infrared Depth Estimation for Robust Sensing ( http://arxiv.org/abs/2402.02067v1 )

ライセンス: Link先を確認
Han Li, Yukai Ma, Yuehao Huang, Yaqing Gu, Weihua Xu, Yong Liu, Xingxing Zuo(参考訳) 深度回復は自律運転において不可欠であり、障害物回避、3次元物体検出、局所経路計画の基礎的要素として機能する。 干し草、ほこり、雨、雪、暗闇といった逆の気象条件は、正確な深度推定に重大な課題をもたらし、自動運転においてかなりの安全リスクをもたらす。 これらの課題は、可視光スペクトルカメラや近赤外lidarのような短距離電磁波センサに依存する従来の深さ推定法において特に顕著である。 この問題を根本的に克服するために,光環境の影響を受けない大気粒子を透過可能なミリ波レーダと単眼赤外線熱カメラを融合させることにより,ロバストな距離推定手法を提案する。 提案手法は,グローバルスケールアライメントによる単眼深度予測,レーダ・ピクセル対応の学習による準拡散レーダ強化,スケールマップ学習器を用いた密集深度の局所的精密化など,高精度で詳細な深部深部推定を実現する。 本手法は,マルチモーダルな長波特徴を直接使用することにより生じる曖昧さと不一致の課題に対処し,異常な視覚品質と正確な距離推定を実現する。 我々は,NTU4DRadLMデータセットに対するアプローチと,ZJU-Multispectrumデータセットの自己コンパイルによる評価を行った。 特に注目すべきは、スモーキーシナリオにおける提案手法による前例のない堅牢性である。 私たちのコードは \url{https://github.com/MMOCKING/RIDERS} でリリースされます。

Dense depth recovery is crucial in autonomous driving, serving as a foundational element for obstacle avoidance, 3D object detection, and local path planning. Adverse weather conditions, including haze, dust, rain, snow, and darkness, introduce significant challenges to accurate dense depth estimation, thereby posing substantial safety risks in autonomous driving. These challenges are particularly pronounced for traditional depth estimation methods that rely on short electromagnetic wave sensors, such as visible spectrum cameras and near-infrared LiDAR, due to their susceptibility to diffraction noise and occlusion in such environments. To fundamentally overcome this issue, we present a novel approach for robust metric depth estimation by fusing a millimeter-wave Radar and a monocular infrared thermal camera, which are capable of penetrating atmospheric particles and unaffected by lighting conditions. Our proposed Radar-Infrared fusion method achieves highly accurate and finely detailed dense depth estimation through three stages, including monocular depth prediction with global scale alignment, quasi-dense Radar augmentation by learning Radar-pixels correspondences, and local scale refinement of dense depth using a scale map learner. Our method achieves exceptional visual quality and accurate metric estimation by addressing the challenges of ambiguity and misalignment that arise from directly fusing multi-modal long-wave features. We evaluate the performance of our approach on the NTU4DRadLM dataset and our self-collected challenging ZJU-Multispectrum dataset. Especially noteworthy is the unprecedented robustness demonstrated by our proposed method in smoky scenarios. Our code will be released at \url{https://github.com/MMOCKING/RIDERS}.
翻訳日:2024-02-06 22:28:55 公開日:2024-02-03
# $\mathbb{x}$ ユーザの信頼性: 1 クラス分類アプローチ

Trustworthiness of $\mathbb{X}$ Users: A One-Class Classification Approach ( http://arxiv.org/abs/2402.02066v1 )

ライセンス: Link先を確認
Tanveer Khan, Fahad Sohrab, Antonis Michalas, Moncef Gabbouj(参考訳) $\mathbb{X}$(以前のTwitter)は、このプラットフォームで生成されたコンテンツを貴重な情報源にする情報を共有する上で重要な役割を果たす、著名なオンラインソーシャルメディアプラットフォームである。 \mathbb{x}$に対する信頼の確保は、ユーザの信頼度を判断し、さまざまなドメイン間の問題を防止するために不可欠である。 信頼性を$\mathbb{x}$ユーザに割り当てて信頼できない、あるいは信頼できないと分類するのは、従来の機械学習モデルを使って行われるのが一般的だが、この目的のために one-class classification (occ) モデルの使用に関する調査は限られている。 本研究では,様々なOCCモデルを$\mathbb{X}$ユーザ分類に使用する。 さらに,OCCのサブスペースとデータ記述を同時に最適化するサブスペース学習方式を提案する。 また,多彩なグラフ構造をキャプチャする低次元部分空間におけるデータ濃度を表す部分空間サポートベクトルデータ記述 (ssvdd) のための新しい正規化用語を提案する。 実験の結果,$\mathbb{x}$ユーザ分類のベースラインモデルや最先端技術と比較して,ssvddの正規化項の方が優れた性能を示した。

$\mathbb{X}$ (formerly Twitter) is a prominent online social media platform that plays an important role in sharing information making the content generated on this platform a valuable source of information. Ensuring trust on $\mathbb{X}$ is essential to determine the user credibility and prevents issues across various domains. While assigning credibility to $\mathbb{X}$ users and classifying them as trusted or untrusted is commonly carried out using traditional machine learning models, there is limited exploration about the use of One-Class Classification (OCC) models for this purpose. In this study, we use various OCC models for $\mathbb{X}$ user classification. Additionally, we propose using a subspace-learning-based approach that simultaneously optimizes both the subspace and data description for OCC. We also introduce a novel regularization term for Subspace Support Vector Data Description (SSVDD), expressing data concentration in a lower-dimensional subspace that captures diverse graph structures. Experimental results show superior performance of the introduced regularization term for SSVDD compared to baseline models and state-of-the-art techniques for $\mathbb{X}$ user classification.
翻訳日:2024-02-06 22:28:27 公開日:2024-02-03
# ヤコビアンフリーバックプロパゲーションを用いた画像劣化の訓練

Training Implicit Networks for Image Deblurring using Jacobian-Free Backpropagation ( http://arxiv.org/abs/2402.02065v1 )

ライセンス: Link先を確認
Linghai Liu, Shuaicheng Tong, Lisa Zhao(参考訳) 近年,画像の逆問題に対する暗黙的ネットワークの適用は,フィードフォワードネットワークと比較して競争力や優位性を実現している。 これらの暗黙的ネットワークは、層数に関係なく、バックプロパゲーション中に一定のメモリしか必要としない。 しかし、訓練は必ずしも容易ではない。 勾配計算は不動点をバックプロパゲーションする必要があるため計算コストが高い。 特に、このプロセスでは、不動点反復のフィーチャの数によってサイズが決定される大きな線形システムを解く必要がある。 本稿では,この計算を回避したバックプロパゲーション手法であるJacobian-free Backproagation (JFB)を提案する。 以上の結果から, jfb は計算コストを低減し, 最適化手法, 最先端フィードフォワードネットワーク, 既存の暗黙的ネットワークに匹敵することを示した。

Recent efforts in applying implicit networks to solve inverse problems in imaging have achieved competitive or even superior results when compared to feedforward networks. These implicit networks only require constant memory during backpropagation, regardless of the number of layers. However, they are not necessarily easy to train. Gradient calculations are computationally expensive because they require backpropagating through a fixed point. In particular, this process requires solving a large linear system whose size is determined by the number of features in the fixed point iteration. This paper explores a recently proposed method, Jacobian-free Backpropagation (JFB), a backpropagation scheme that circumvents such calculation, in the context of image deblurring problems. Our results show that JFB is comparable against fine-tuned optimization schemes, state-of-the-art (SOTA) feedforward networks, and existing implicit networks at a reduced computational cost.
翻訳日:2024-02-06 22:28:03 公開日:2024-02-03
# クロスタスク知識蒸留によるコードレビュー連続タスクの学習の改善

Improving the Learning of Code Review Successive Tasks with Cross-Task Knowledge Distillation ( http://arxiv.org/abs/2402.02063v1 )

ライセンス: Link先を確認
Oussama Ben Sghaier and Houari Sahraoui(参考訳) コードレビューはソフトウェア開発における基本的なプロセスであり、コード品質の確保とエラーやバグの可能性の低減に重要な役割を果たします。 しかし、コードレビューは複雑で、主観的で、時間がかかります。 品質推定、コメント生成、コードリファインメントは、このプロセスの3つの重要なタスクであり、その自動化は、伝統的に異なるアプローチで文学の中で別々に取り組まれてきた。 特に、最近の取り組みは、コードレビュータスクを支援するために、訓練済みの言語モデルを微調整することに焦点を当てている。 これらのタスクは相互に結びついており、それらの微調整はこの相互接続を考慮するべきだと考えています。 本稿では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を用いた新しいディープラーニングアーキテクチャdisCOREVを紹介する。 提案手法では,コメント生成モデルとコード修正モデルの両方を強化するために,モデルのカスケードを利用する。 コメント生成モデルの微調整はコードリファインメントモデルによって導かれ、コードリファインメントモデルの微調整は品質推定モデルによって導かれる。 フィードバックに基づく学習目標と埋め込みアライメント目標の2つの戦略を用いて,このガイダンスを実装した。 我々はDiscOREVを、独立トレーニングと微調整に基づく最先端の手法と比較することで評価する。 以上の結果から,提案手法は,BLEUスコアによる評価や,CodeBLEUスコアによるより正確なコード修正など,より良いレビューコメントを生成することが示された。

Code review is a fundamental process in software development that plays a pivotal role in ensuring code quality and reducing the likelihood of errors and bugs. However, code review can be complex, subjective, and time-consuming. Quality estimation, comment generation, and code refinement constitute the three key tasks of this process, and their automation has traditionally been addressed separately in the literature using different approaches. In particular, recent efforts have focused on fine-tuning pre-trained language models to aid in code review tasks, with each task being considered in isolation. We believe that these tasks are interconnected, and their fine-tuning should consider this interconnection. In this paper, we introduce a novel deep-learning architecture, named DISCOREV, which employs cross-task knowledge distillation to address these tasks simultaneously. In our approach, we utilize a cascade of models to enhance both comment generation and code refinement models. The fine-tuning of the comment generation model is guided by the code refinement model, while the fine-tuning of the code refinement model is guided by the quality estimation model. We implement this guidance using two strategies: a feedback-based learning objective and an embedding alignment objective. We evaluate DISCOREV by comparing it to state-of-the-art methods based on independent training and fine-tuning. Our results show that our approach generates better review comments, as measured by the BLEU score, as well as more accurate code refinement according to the CodeBLEU score
翻訳日:2024-02-06 22:27:46 公開日:2024-02-03
# DiffVein: 指静脈分割と認証のための統合拡散ネットワーク

DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and Authentication ( http://arxiv.org/abs/2402.02060v1 )

ライセンス: Link先を確認
Yanjun Liu, Wenming Yang and Qingmin Liao(参考訳) 高セキュリティと特異性で認識されている指静脈認証は、生体計測研究の焦点となっている。 伝統的な手法は、主に識別的モデリングのための静脈の特徴抽出に集中し、生成的アプローチを限定的に探究する。 検証の失敗に苦しむため、既存の方法はしばしばセグメンテーションによって真正の静脈パターンを得ることができない。 このギャップを埋めるために、静脈分割と認証タスクを同時に扱う統合拡散モデルベースのフレームワークであるDiffVeinを紹介する。 diffveinはセグメンテーションのための1つとデノーミングのためのもう1つの2つの専用ブランチから構成されている。 これら2つのブランチ間の機能的相互作用を改善するために,2つの特別なモジュールを導入する。 第1のマスク条件モジュールは、セグメンテーションブランチからの静脈パターンの意味情報をデノナイズ処理に組み込む。 さらに,セグメンテーションタスクに投入する前にカテゴリ埋め込みを抽出するために,フーリエ空間自己アテンションとクロスアテンションモジュールを用いた意味差トランスフォーマ(sd-former)を提案する。 このようにして,このフレームワークは拡散とセグメンテーションの動的相互作用を可能にするので,静脈セグメンテーションと認証タスクは協調学習において相互に情報を与え,強化することができる。 このモデルをさらに最適化するために,ネットワークの学習効率を向上させるために,Fourier-space Structure similarity (FourierSIM)損失関数を導入する。 USMとTHU-MVFV3Vデータセットに関する大規模な実験は、DiffVeinの優れたパフォーマンスを裏付け、静脈セグメンテーションと認証タスクの両方に新しいベンチマークを設定する。

Finger vein authentication, recognized for its high security and specificity, has become a focal point in biometric research. Traditional methods predominantly concentrate on vein feature extraction for discriminative modeling, with a limited exploration of generative approaches. Suffering from verification failure, existing methods often fail to obtain authentic vein patterns by segmentation. To fill this gap, we introduce DiffVein, a unified diffusion model-based framework which simultaneously addresses vein segmentation and authentication tasks. DiffVein is composed of two dedicated branches: one for segmentation and the other for denoising. For better feature interaction between these two branches, we introduce two specialized modules to improve their collective performance. The first, a mask condition module, incorporates the semantic information of vein patterns from the segmentation branch into the denoising process. Additionally, we also propose a Semantic Difference Transformer (SD-Former), which employs Fourier-space self-attention and cross-attention modules to extract category embedding before feeding it to the segmentation task. In this way, our framework allows for a dynamic interplay between diffusion and segmentation embeddings, thus vein segmentation and authentication tasks can inform and enhance each other in the joint training. To further optimize our model, we introduce a Fourier-space Structural Similarity (FourierSIM) loss function, which is tailored to improve the denoising network's learning efficacy. Extensive experiments on the USM and THU-MVFV3V datasets substantiates DiffVein's superior performance, setting new benchmarks in both vein segmentation and authentication tasks.
翻訳日:2024-02-06 22:27:22 公開日:2024-02-03
# AnthroScore: 擬人化の計算言語学的尺度

AnthroScore: A Computational Linguistic Measure of Anthropomorphism ( http://arxiv.org/abs/2402.02056v1 )

ライセンス: Link先を確認
Myra Cheng, Kristina Gligoric, Tiziano Piccardi, Dan Jurafsky(参考訳) 人為的多態性(人為的特徴の非人間的実体への帰属)は、技術の影響と可能性に関する議論を形作っている。 言語における暗黙的擬人化の自動尺度である AnthroScore を提示する。 マスキング言語モデルを使用して、非人間エンティティが周囲のコンテキストによって暗黙的に人間として構成されているかを定量化する。 本研究は,人間による擬人化の判断と社会科学文献に記述された擬人化の次元に対応していることを示す。 コンピュータサイエンスの談話における誤解を招く人間同型に関する懸念から、我々は15年間の研究論文や下流のニュース記事の分析にAnthroScoreを用いている。 研究論文では、人類同型は時間とともに着実に増加しており、言語モデルに関連する論文が最も人間同型であることがわかった。 acl論文では、擬人化の時間的増大は重要な神経発達と相関している。 マスメディアにおける科学的誤報の懸念に基づいて、ニュースの見出しにおいて、彼らが引用する研究論文と比較して高いレベルの人為的同型を同定する。 AnthroScoreはレキシコンフリーであるため、幅広いテキストソースに直接適用することができる。

Anthropomorphism, or the attribution of human-like characteristics to non-human entities, has shaped conversations about the impacts and possibilities of technology. We present AnthroScore, an automatic metric of implicit anthropomorphism in language. We use a masked language model to quantify how non-human entities are implicitly framed as human by the surrounding context. We show that AnthroScore corresponds with human judgments of anthropomorphism and dimensions of anthropomorphism described in social science literature. Motivated by concerns of misleading anthropomorphism in computer science discourse, we use AnthroScore to analyze 15 years of research papers and downstream news articles. In research papers, we find that anthropomorphism has steadily increased over time, and that papers related to language models have the most anthropomorphism. Within ACL papers, temporal increases in anthropomorphism are correlated with key neural advancements. Building upon concerns of scientific misinformation in mass media, we identify higher levels of anthropomorphism in news headlines compared to the research papers they cite. Since AnthroScore is lexicon-free, it can be directly applied to a wide range of text sources.
翻訳日:2024-02-06 22:26:53 公開日:2024-02-03
# 可変アライメントスコア:マルチモーダル・コントラスト学習のための単純だが靭なデータ選択法

Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning ( http://arxiv.org/abs/2402.02055v1 )

ライセンス: Link先を確認
Yiping Wang, Yifang Chen, Wendan Yan, Kevin Jamieson, Simon Shaolei Du(参考訳) 近年、大規模なビジュアル言語モデルの事前学習において、特にノイズの多いwebキュレーションデータセットにおいて、データ選択が重要な問題となっている。 広く採用されている戦略のひとつに、サンプル毎にCLIP類似性などの品質スコアを割り当て、最高スコアとデータペアを保持するものがある。 しかし、これらのアプローチはデータ分布を知らないため、最も情報に富むサンプルを常に選ばない。 この問題を解決するために, 可変アライメントスコア (VAS) という, 単純だが理論的に原理化された計量を提案し, その形式は $\langle \Sigma_{\text{test}}, \Sigma_i\rangle$ である。 ここで、$\sigma_{\text{test}}$ は私たちが調整しようとしている目標(クロス)共分散行列を表し、潜在的な事前知識に基づいて、$\sigma_i$ は$i$-th サンプルのシングルまたはマルチモーダル表現のテンソル積を表す。 さらに、全VASを最大化する新しいデータ選択法を設計する。 本研究では,ランダムあるいは他の既存データ選択に対するvasの理論的利点を示すために,簡易な設定で理論的解析を行う。 実験的に、VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38の評価セットの平均1.3\%、高品質なデータセットCC12MのVTABの2.5\%と、ベースラインを上回ります。 さらに,本研究では,VAS計算のためのテキストよりも視覚的特徴の方が優れており,関連する古典的実験設計手法はこの文脈で失敗する可能性がある。

In recent years, data selection has emerged as a core issue for large-scale visual-language model pretraining, especially on noisy web-curated datasets. One widely adopted strategy assigns quality scores such as CLIP similarity for each sample and retains the data pairs with the highest scores. However, these approaches are agnostic of data distribution and always fail to select the most informative samples. To solve this problem, we propose a simple yet theoretically principled metric named Variance Alignment Score (VAS), which has the form $\langle \Sigma_{\text{test}}, \Sigma_i\rangle$. Here, $\Sigma_{\text{test}}$ represents the target (cross-)covariance matrix we aim to align, potentially based on prior knowledge, while $\Sigma_i$ denotes the tensor product of single or multi-modal representations for the $i$-th sample. We further design a new data selection method that maximizes the total VAS. We provide theoretical analysis in a simplified setting to demonstrate the theoretical advantage of VAS over random or other existing data selection. Experimentally, applying VAS and CLIP scores together can outperform baselines by a margin of $1.3\%$ average on 38 evaluation sets for noisy dataset DataComp and $2.5\%$ on VTAB for high-quality dataset CC12M. Additionally, our ablation study also shows visual features are better than text for calculating VAS, and the related classical experimental design methods may fail under this context.
翻訳日:2024-02-06 22:26:35 公開日:2024-02-03
# グラフ上のニューラルスケーリング法則

Neural Scaling Laws on Graphs ( http://arxiv.org/abs/2402.02054v1 )

ライセンス: Link先を確認
Jingzhe Liu, Haitao Mao, Zhikai Chen, Tong Zhao, Neil Shah, Jiliang Tang(参考訳) ディープグラフモデル(グラフニューラルネットワークやグラフトランスフォーマーなど)は、さまざまな種類のグラフにまたがる知識を活用する上で重要な技術となっている。 しかし、ディープグラフモデルのスケーリング特性は体系的に研究されておらず、モデルとデータセットのサイズを拡大することで大きなグラフモデルを実現する可能性に疑問を投げかけている。 この研究では、モデルとデータの両方の観点から、グラフ上のニューラルスケーリングの法則を掘り下げる。 まず,そのような法則のグラフ上での有効性を検証し,スケーリング行動を記述するための定式化を確立する。 モデルスケーリングでは,スケール法が崩壊する現象を調査し,オーバーフィッティングを潜在的な理由として同定する。 さらに,深部グラフモデルのモデル深度が,CVやNLPといった他の領域の観測と異なるモデルスケーリングの挙動に影響を及ぼすことを明らかにした。 データスケーリングについては、グラフのサイズが極めて不規則であるため、スケーリング法則においてグラフデータのボリュームを効果的に測定することはできないことを示唆する。 代わりに、不規則なグラフサイズに対応するための計量として、エッジの数でデータスケーリングの法則を改革する。 さらに,改定法は,ノード分類,リンク予測,グラフ分類など,各種基本グラフタスクのデータスケーリング動作の統一的ビューを提供する。 この研究は、グラフ上のニューラルネットワークのスケーリング法則に関する貴重な洞察を提供する。

Deep graph models (e.g., graph neural networks and graph transformers) have become important techniques for leveraging knowledge across various types of graphs. Yet, the scaling properties of deep graph models have not been systematically investigated, casting doubt on the feasibility of achieving large graph models through enlarging the model and dataset sizes. In this work, we delve into neural scaling laws on graphs from both model and data perspectives. We first verify the validity of such laws on graphs, establishing formulations to describe the scaling behaviors. For model scaling, we investigate the phenomenon of scaling law collapse and identify overfitting as the potential reason. Moreover, we reveal that the model depth of deep graph models can impact the model scaling behaviors, which differ from observations in other domains such as CV and NLP. For data scaling, we suggest that the number of graphs can not effectively metric the graph data volume in scaling law since the sizes of different graphs are highly irregular. Instead, we reform the data scaling law with the number of edges as the metric to address the irregular graph sizes. We further demonstrate the reformed law offers a unified view of the data scaling behaviors for various fundamental graph tasks including node classification, link prediction, and graph classification. This work provides valuable insights into neural scaling laws on graphs, which can serve as an essential step toward large graph models.
翻訳日:2024-02-06 22:26:02 公開日:2024-02-03
# 安価な生成剤

Affordable Generative Agents ( http://arxiv.org/abs/2402.02053v1 )

ライセンス: Link先を確認
Yangbin Yu, Qin Zhang, Junyou Li, Qiang Fu, Deheng Ye(参考訳) 大規模言語モデル(LLM)の出現は,対話型エージェントのシミュレーションを大幅に進歩させた。 しかし、長期間にわたるエージェントの相互作用を維持するためのかなりのコストは、信じられないLSMベースのエージェントの配置に挑戦する。 そこで本稿では,エージェント環境とエージェント間の両方のレベルで,信頼性と低コストのインタラクション生成を可能にするフレームワークであるAffordable Generative Agents (AGA) を開発する。 具体的には,エージェントと環境の相互作用において,反復的LLM推論を学習ポリシーに置き換える。エージェント間相互作用ではエージェント間の社会的関係をモデル化し,補助対話情報を圧縮する。 複数の環境における実験により,提案手法の有効性と有効性を示した。 また,llmエージェントに横たわる創発的行動のメカニズムを考察し,エージェントは固定環境において有限な行動しか生成できないことを示し,創発的相互作用行動を促進する方法を理解した。 当社のコードは以下で公開されている。 \url{https://github.com/AffordableGenerativeAgents/Affordable-Generative-Agents}。

The emergence of large language models (LLMs) has significantly advanced the simulation of believable interactive agents. However, the substantial cost on maintaining the prolonged agent interactions poses challenge over the deployment of believable LLM-based agents. Therefore, in this paper, we develop Affordable Generative Agents (AGA), a framework for enabling the generation of believable and low-cost interactions on both agent-environment and inter-agents levels. Specifically, for agent-environment interactions, we substitute repetitive LLM inferences with learned policies; while for inter-agent interactions, we model the social relationships between agents and compress auxiliary dialogue information. Extensive experiments on multiple environments show the effectiveness and efficiency of our proposed framework. Also, we delve into the mechanisms of emergent believable behaviors lying in LLM agents, demonstrating that agents can only generate finite behaviors in fixed environments, based upon which, we understand ways to facilitate emergent interaction behaviors. Our code is publicly available at: \url{https://github.com/AffordableGenerativeAgents/Affordable-Generative-Agents}.
翻訳日:2024-02-06 22:25:44 公開日:2024-02-03
# IDSにおけるPeafowl Matingの概念を用いた特徴選択

Feature Selection using the concept of Peafowl Mating in IDS ( http://arxiv.org/abs/2402.02052v1 )

ライセンス: Link先を確認
Partha Ghosh, Joy Sharma and Nilesh Pandey(参考訳) クラウドコンピューティングは、コンピューティングリソースの共有に依存するインターネットベースのサービスとして、高い適用性を持っている。 クラウドコンピューティングはインフラストラクチャベース、プラットフォームベース、ソフトウェアベースのサービスを提供します。 この技術の人気は、その超高性能、高レベルのコンピューティング能力、サービスの低コスト、スケーラビリティ、可用性、柔軟性にある。 クラウド環境におけるデータの入手性とオープン性は、サイバー攻撃の世界に脆弱性をもたらします。 攻撃侵入検知システムは、攻撃を識別し、情報セキュリティを確保することができる。 本稿では,クラウド環境における安全性に関する高い確実性を実現するため,このようなコヒーレントで熟練した侵入検知システムを提案する。 本稿では,peafowlの交配動作を最適化アルゴリズムに組み込むことにより,特徴選択アルゴリズムとして用いる。 このアルゴリズムは、クラウドデータの巨大なサイズを減らすために使用され、IDSがクラウド上で効率的に動作して侵入を検出する。 提案モデルでは,NSL-KDDデータセットと京都データセットを併用して実験を行い,効率的なIDSの有効性を実証した。

Cloud computing has high applicability as an Internet based service that relies on sharing computing resources. Cloud computing provides services that are Infrastructure based, Platform based and Software based. The popularity of this technology is due to its superb performance, high level of computing ability, low cost of services, scalability, availability and flexibility. The obtainability and openness of data in cloud environment make it vulnerable to the world of cyber-attacks. To detect the attacks Intrusion Detection System is used, that can identify the attacks and ensure information security. Such a coherent and proficient Intrusion Detection System is proposed in this paper to achieve higher certainty levels regarding safety in cloud environment. In this paper, the mating behavior of peafowl is incorporated into an optimization algorithm which in turn is used as a feature selection algorithm. The algorithm is used to reduce the huge size of cloud data so that the IDS can work efficiently on the cloud to detect intrusions. The proposed model has been experimented with NSL-KDD dataset as well as Kyoto dataset and have proved to be a better as well as an efficient IDS.
翻訳日:2024-02-06 22:25:28 公開日:2024-02-03
# 関数型リンクニューラルネットワークによる非線形部分空間クラスタリング

Nonlinear subspace clustering by functional link neural networks ( http://arxiv.org/abs/2402.02051v1 )

ライセンス: Link先を確認
Long Shi, Lei Cao, Zhongpu Chen, Badong Chen, Yu Zhao(参考訳) フィードフォワードニューラルネットワークに基づく非線形サブスペースクラスタリングは、いくつかの高度なサブスペースクラスタリングアルゴリズムよりも優れたクラスタリング精度を提供することを示した。 このアプローチは印象的な結果を示すが、有効性と計算コストのバランスが伴う。 本研究では,関数型リンクニューラルネットワークを用いて,データサンプルを非線形領域に変換する。 その後,マップされたサンプルを基に構築した学習機構を通じて自己表現行列を得る。 関数型リンクニューラルネットワークは単層ニューラルネットワークであるため,提案手法はクラスタリング性能を確保しつつ高い計算効率を実現する。 グループ化効果を高めるために局所的類似性正規化を組み込むことにより,提案手法はクラスタリング結果の質をさらに向上させる。 さらに,線形部分空間クラスタリング法と関数型リンクニューラルネットワーク部分空間クラスタリング法を組み合わせた凸結合部分空間クラスタリングスキームを提案する。 この組み合わせアプローチは線型表現と非線形表現の動的バランスを可能にする。 広範な実験によって我々の方法の進歩が確認された。 ソースコードはhttps://lshi91.github.io/でリリースされる。

Nonlinear subspace clustering based on a feed-forward neural network has been demonstrated to provide better clustering accuracy than some advanced subspace clustering algorithms. While this approach demonstrates impressive outcomes, it involves a balance between effectiveness and computational cost. In this study, we employ a functional link neural network to transform data samples into a nonlinear domain. Subsequently, we acquire a self-representation matrix through a learning mechanism that builds upon the mapped samples. As the functional link neural network is a single-layer neural network, our proposed method achieves high computational efficiency while ensuring desirable clustering performance. By incorporating the local similarity regularization to enhance the grouping effect, our proposed method further improves the quality of the clustering results. Additionally, we introduce a convex combination subspace clustering scheme, which combining a linear subspace clustering method with the functional link neural network subspace clustering approach. This combination approach allows for a dynamic balance between linear and nonlinear representations. Extensive experiments confirm the advancement of our methods. The source code will be released on https://lshi91.github.io/ soon.
翻訳日:2024-02-06 22:25:12 公開日:2024-02-03
# llm生成コードの品質と信頼性

Quality and Trust in LLM-generated Code ( http://arxiv.org/abs/2402.02047v1 )

ライセンス: Link先を確認
Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md Rafiqul Islam Rabin, Susmit Jha, Prem Devanbu, Toufique Ahmed(参考訳) 機械学習モデルは広く使われているが、しばしば間違っていることもある。 ユーザは、与えられたモデルからのアウトプットを信頼すべきかどうかの信頼できる表示から恩恵を受けるので、アウトプットを使用するかどうかを合理的に判断することができる。 例えば、出力は信頼測度と結びつくことができ、もしこの信頼測度が正しさの確率と強く関連しているなら、そのモデルはよく校正されていると言われる。 この場合、例えば、高信頼出力は安全に受け入れられ、低信頼出力は拒否される。 キャリブレーションは、これまで、特にソフトウェア工学において、非生成的(例えば分類)な設定で研究されてきた。 しかし、生成されたコードは、しばしば間違っている: 開発者は、いつ、直接の使用、慎重にレビューした後の使用、またはモデル生成コードを捨てるべきかを知る必要がある; キャリブレーションは、生成設定において不可欠である。 しかし、生成されたコードの正確性の概念は非自明であり、キャリブレーションも同様である。 本稿ではいくつかの貢献を行う。 コード生成モデルのキャリブレーションを評価するフレームワークを開発した。 我々は、いくつかのタスク、正確性基準、データセット、そしてアプローチを検討し、大きな生成型コードモデルが最初からうまく調整されていないことを見つける。 次に, platt scaling などの標準手法を用いて, キャリブレーションの改善方法を示す。 私たちのコントリビューションは、言語モデルが生成するコードの現在の使用において、より良いキャリブレーションによる意思決定につながり、ソフトウェア工学における生成モデルの校正方法をさらに改善するための将来の研究のためのフレームワークを提供するでしょう。

Machine learning models are widely used but can also often be wrong. Users would benefit from a reliable indication of whether a given output from a given model should be trusted, so a rational decision can be made whether to use the output or not. For example, outputs can be associated with a confidence measure; if this confidence measure is strongly associated with likelihood of correctness, then the model is said to be well-calibrated. In this case, for example, high-confidence outputs could be safely accepted, and low-confidence outputs rejected. Calibration has so far been studied in non-generative (e.g., classification) settings, especially in Software Engineering. However, generated code can quite often be wrong: Developers need to know when they should e.g., directly use, use after careful review, or discard model-generated code; thus Calibration is vital in generative settings. However, the notion of correctness of generated code is non-trivial, and thus so is Calibration. In this paper we make several contributions. We develop a framework for evaluating the Calibration of code-generating models. We consider several tasks, correctness criteria, datasets, and approaches, and find that by and large generative code models are not well-calibrated out of the box. We then show how Calibration can be improved, using standard methods such as Platt scaling. Our contributions will lead to better-calibrated decision-making in the current use of code generated by language models, and offers a framework for future research to further improve calibration methods for generative models in Software Engineering.
翻訳日:2024-02-06 22:24:56 公開日:2024-02-03
# S-NeRF++:ニューラルネットワークによる自律走行シミュレーションと生成

S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation ( http://arxiv.org/abs/2402.02112v1 )

ライセンス: Link先を確認
Yurui Chen, Junge Zhang, Ziyang Xie, Wenye Li, Feihu Zhang, Jiachen Lu, Li Zhang(参考訳) 自動運転シミュレーションシステムは、自動運転データを強化し、複雑で希少な交通シナリオをシミュレートし、ナビゲーションの安全性を確保する上で重要な役割を担っている。 しかし、手動モデリングや2次元画像編集に大きく依存する従来のシミュレーションシステムは、広いシーンへのスケーリングと現実的なシミュレーションデータの生成に苦労した。 本研究では,ニューラル再構成に基づく革新的な自律運転シミュレーションシステムであるS-NeRF++を提案する。 nuScenesやWaymoといった、広く使用されている自動運転データセットに基づいて、S-NeRF++は、多くの現実的なストリートシーンと、高いレンダリング品質のフォアグラウンドオブジェクトを生成し、操作とシミュレーションにかなりの柔軟性を提供する。 具体的には、S-NeRF++は大規模シーンと移動車両を合成するための強化された神経放射場であり、シーンパラメータ化とカメラポーズ学習を改善している。 このシステムは、ノイズとスパースLiDARデータを効果的に利用して、トレーニングを洗練し、奥行きのアウトリーチに対処し、高品質な再構築とノベルビューレンダリングを保証する。 また、包括的シナリオ作成を支援するために、さまざまな前景車両の再構築と生産を通じて、多様な前景資産銀行も提供する。 さらに,照明効果とシャドー効果を巧みに統合し,シミュレーションのリアリズムをさらに高める高度なフォアグラウンド・バックグラウンド融合パイプラインを開発した。 S-NeRF++が提供した高品質なシミュレーションデータにより、認識手法は複数の自律走行下流タスクのパフォーマンス向上を享受し、提案したシミュレータの有効性をさらに実証する。

Autonomous driving simulation system plays a crucial role in enhancing self-driving data and simulating complex and rare traffic scenarios, ensuring navigation safety. However, traditional simulation systems, which often heavily rely on manual modeling and 2D image editing, struggled with scaling to extensive scenes and generating realistic simulation data. In this study, we present S-NeRF++, an innovative autonomous driving simulation system based on neural reconstruction. Trained on widely-used self-driving datasets such as nuScenes and Waymo, S-NeRF++ can generate a large number of realistic street scenes and foreground objects with high rendering quality as well as offering considerable flexibility in manipulation and simulation. Specifically, S-NeRF++ is an enhanced neural radiance field for synthesizing large-scale scenes and moving vehicles, with improved scene parameterization and camera pose learning. The system effectively utilizes noisy and sparse LiDAR data to refine training and address depth outliers, ensuring high quality reconstruction and novel-view rendering. It also provides a diverse foreground asset bank through reconstructing and generating different foreground vehicles to support comprehensive scenario creation. Moreover, we have developed an advanced foreground-background fusion pipeline that skillfully integrates illumination and shadow effects, further enhancing the realism of our simulations. With the high-quality simulated data provided by our S-NeRF++, we found the perception methods enjoy performance boost on several autonomous driving downstream tasks, which further demonstrate the effectiveness of our proposed simulator.
翻訳日:2024-02-06 22:18:22 公開日:2024-02-03
# QK固有スペクトル集中時の自己注意ネットワーク

Self-attention Networks Localize When QK-eigenspectrum Concentrates ( http://arxiv.org/abs/2402.02098v1 )

ライセンス: Link先を確認
Han Bao, Ryuichiro Hataya, Ryo Karakida(参考訳) 自己認識メカニズムは、現代の機械学習で一般的である。 多くの研究者は、強力なモデル性能の基盤でありながら、学習のダイナミクスの根底にあるメカニズムを複雑にし、注意の定位度を調節することで、入力シーケンスからトークンを適応的に選択する興味深い機能を持っていると推測している。 近年、主に2つの議論がモデルの性能に注意を向けている。 一つはランク崩壊であり、自己注意ブロックによる埋め込みトークンは異なるトークン間で非常によく似ており、表現力の低いネットワークに繋がる。 もう1つはエントロピー崩壊(entropy collapse)で、注意確率は一様ではなく、低エントロピーを伴うため、学習のダイナミクスは高原に閉じ込められる傾向が強まる。 これらの2つの障害モードは、ランクとエントロピーの崩壊がそれぞれ均一な注意と非均一な注意に関係しているため、明らかに矛盾する可能性がある。 この目的のために,クエリキーパラメータ行列の固有スペクトルによる注意定位の概念を特徴付け,最小の固有スペクトル分散が注意の局所化に繋がることを示す。 興味深いことに、小さな固有スペクトラム分散はランクとエントロピーの崩壊を防ぎ、より優れたモデル表現性とトレーサビリティをもたらす。

The self-attention mechanism prevails in modern machine learning. It has an interesting functionality of adaptively selecting tokens from an input sequence by modulating the degree of attention localization, which many researchers speculate is the basis of the powerful model performance but complicates the underlying mechanism of the learning dynamics. In recent years, mainly two arguments have connected attention localization to the model performances. One is the rank collapse, where the embedded tokens by a self-attention block become very similar across different tokens, leading to a less expressive network. The other is the entropy collapse, where the attention probability approaches non-uniform and entails low entropy, making the learning dynamics more likely to be trapped in plateaus. These two failure modes may apparently contradict each other because the rank and entropy collapses are relevant to uniform and non-uniform attention, respectively. To this end, we characterize the notion of attention localization by the eigenspectrum of query-key parameter matrices and reveal that a small eigenspectrum variance leads attention to be localized. Interestingly, the small eigenspectrum variance prevents both rank and entropy collapse, leading to better model expressivity and trainability.
翻訳日:2024-02-06 22:17:55 公開日:2024-02-03
# 新規共有による分散多エージェント協調探索の確立

Settling Decentralized Multi-Agent Coordinated Exploration by Novelty Sharing ( http://arxiv.org/abs/2402.02097v1 )

ライセンス: Link先を確認
Haobin Jiang, Ziluo Ding, Zongqing Lu(参考訳) 分散協調型マルチエージェント強化学習の探索には2つの課題がある。 一つは、世界国家の新規性は利用できないが、局所的な観察の新規性は偏っていることである。 もうひとつは、エージェントが協調的に探索する方法です。 これらの課題に対処するために, 単純で効果的なマルチエージェント協調探索法である MACE を提案する。 ローカルノベルティのみを通信することで、エージェントは他のエージェントのローカルノベルティを考慮してグローバルノベルティを近似することができる。 さらに,重み付き相互情報を導入して,あるエージェントの作用が他のエージェントの蓄積した新規性に与える影響を計測した。 我々は、エージェントが他のエージェントの探索により多くの影響を与えるよう奨励し、協調した探索を促進するために、後見において本質的な報酬として変換する。 実験により, MACEは, スパース報酬を伴う3つのマルチエージェント環境において, 優れた性能を発揮することを示す。

Exploration in decentralized cooperative multi-agent reinforcement learning faces two challenges. One is that the novelty of global states is unavailable, while the novelty of local observations is biased. The other is how agents can explore in a coordinated way. To address these challenges, we propose MACE, a simple yet effective multi-agent coordinated exploration method. By communicating only local novelty, agents can take into account other agents' local novelty to approximate the global novelty. Further, we newly introduce weighted mutual information to measure the influence of one agent's action on other agents' accumulated novelty. We convert it as an intrinsic reward in hindsight to encourage agents to exert more influence on other agents' exploration and boost coordinated exploration. Empirically, we show that MACE achieves superior performance in three multi-agent environments with sparse rewards.
翻訳日:2024-02-06 22:17:32 公開日:2024-02-03
# 複雑な場面における赤外・可視画像融合の分解と干渉知覚

Decomposition-based and Interference Perception for Infrared and Visible Image Fusion in Complex Scenes ( http://arxiv.org/abs/2402.02096v1 )

ライセンス: Link先を確認
Xilai Li, Xiaosong Li, Haishu Tan(参考訳) 赤外線と可視画像融合は、コンピュータビジョンにおける顕著な研究である。 しかし、複雑なシーン融合にはほとんど注意が払われておらず、既存の技術は実際の干渉に苦しむ際に準最適結果をもたらす。 このギャップを埋めるために,分解に基づく干渉知覚画像融合法を提案する。 具体的には、可視画像の画素を光透過の散乱度から分類し、画像の詳細とエネルギー情報を分離する。 この洗練された分解により、複雑なシーンにあるより干渉するピクセルを識別するモデルが提案される。 復調とディテール保存のバランスをとるために,ディテールコンポーネントを融合させる適応型ディスプレー方式を提案する。 一方,複数方向から見た画像エネルギー情報の分布を考慮した新たな重み付き融合法を提案する。 複雑なシーンの融合における広範囲な実験は、悪天候、ノイズ、ぼやけ、過剰露出、火災、およびセマンティックセグメンテーション、オブジェクト検出、サルエント物体検出、深さ推定を含む下流タスクをカバーし、最近の代表的な手法と比較して、提案手法の有効性と優位性を一貫して示している。

Infrared and visible image fusion has emerged as a prominent research in computer vision. However, little attention has been paid on complex scenes fusion, causing existing techniques to produce sub-optimal results when suffers from real interferences. To fill this gap, we propose a decomposition-based and interference perception image fusion method. Specifically, we classify the pixels of visible image from the degree of scattering of light transmission, based on which we then separate the detail and energy information of the image. This refined decomposition facilitates the proposed model in identifying more interfering pixels that are in complex scenes. To strike a balance between denoising and detail preservation, we propose an adaptive denoising scheme for fusing detail components. Meanwhile, we propose a new weighted fusion rule by considering the distribution of image energy information from the perspective of multiple directions. Extensive experiments in complex scenes fusions cover adverse weathers, noise, blur, overexposure, fire, as well as downstream tasks including semantic segmentation, object detection, salient object detection and depth estimation, consistently indicate the effectiveness and superiority of the proposed method compared with the recent representative methods.
翻訳日:2024-02-06 22:17:17 公開日:2024-02-03
# 見ることは常に信じるとは限らない:無害摂動の空間

Seeing is not always believing: The Space of Harmless Perturbations ( http://arxiv.org/abs/2402.02095v1 )

ライセンス: Link先を確認
Lu Chen, Shaofeng Li, Benhao Huang, Fan Yang, Zheng Li, Jie Li, Yuan Luo(参考訳) ディープニューラルネットワークの文脈では、摂動がネットワーク出力を完全に変更しないような、無害な摂動空間の存在を露呈する。 この無害な摂動空間内の摂動は、画像に適用する際の大きさに関係なく、元の画像のネットワークの出力に影響を与えない。 具体的には、入力次元 $n$ が出力次元 $m$ を超えるようなネットワーク内の任意の線型層を考えると、その次元が$(n-m)$ である連続無害摂動部分空間の存在を実証する。 このことから着想を得て,ネットワーク出力に一貫して影響を及ぼす一般的な摂動群について,その大きさに関わらず解く。 これらの理論的知見により,プライバシ保護データ利用における無害な摂動の応用について検討する。 我々の研究は、人間が捉えた大きな摂動がDNNの認識に影響を与えないという人間の認識とDNNの違いを明らかにしている。 その結果、我々はこのギャップを利用して、人間にとって意味のない無害な摂動を設計し、DNNの認識可能な特徴を維持している。

In the context of deep neural networks, we expose the existence of a harmless perturbation space, where perturbations leave the network output entirely unaltered. Perturbations within this harmless perturbation space, regardless of their magnitude when applied to images, exhibit no impact on the network's outputs of the original images. Specifically, given any linear layer within the network, where the input dimension $n$ exceeds the output dimension $m$, we demonstrate the existence of a continuous harmless perturbation subspace with a dimension of $(n-m)$. Inspired by this, we solve for a family of general perturbations that consistently influence the network output, irrespective of their magnitudes. With these theoretical findings, we explore the application of harmless perturbations for privacy-preserving data usage. Our work reveals the difference between DNNs and human perception that the significant perturbations captured by humans may not affect the recognition of DNNs. As a result, we utilize this gap to design a type of harmless perturbation that is meaningless for humans while maintaining its recognizable features for DNNs.
翻訳日:2024-02-06 22:16:56 公開日:2024-02-03
# ゼロショットリモートセンシング画像シーン分類のためのディープセマンティック・ビジュアルアライメント

Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene Classification ( http://arxiv.org/abs/2402.02094v1 )

ライセンス: Link先を確認
Wenjia Xu, Jiuniu Wang, Zhiwei Wei, Mugen Peng, Yirong Wu(参考訳) 深層ニューラルネットワークは、各クラスに豊富なサンプルを必要とするリモートセンシング(RS)画像分類において、有望な進歩を遂げている。 しかし、RSターゲットデータベースが動的に増加しているという事実を考えると、各RSカテゴリのラベルをアノテートするのは時間がかかり非現実的である。 ゼロショット学習(ZSL)では、トレーニング中に見えない新しいクラスを識別することが可能であり、前述の問題に対する有望な解決策を提供する。 しかし、従来のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存している。 さらに、先駆的なzslモデルは、imagenetに事前トレーニングされた畳み込みニューラルネットワークを使用しており、各画像に現れる主要オブジェクトに注目し、rsシーンの分類にも重要な背景コンテキストを無視している。 上記の問題に対処するため,視覚的に検出可能な属性を自動的に収集する手法を提案する。 属性と画像間の意味・視覚的類似性を記述することで,各クラスの属性を予測する。 このように、属性アノテーションプロセスは他の方法のように人間ではなく機械によって達成される。 さらに,局部画像領域を関連付けるためにトランスフォーマの自己照準機構を利用する深部セマンティック・ビジュアルアライメント(dsva)を提案し,背景コンテキスト情報を統合して予測を行う。 DSVAモデルは、属性アテンションマップを利用して、ZSLにおける知識伝達に不可欠な情報領域に焦点を当て、視覚画像を属性空間にマッピングしてZSL分類を行う。 大規模rsシーン分類ベンチマークにおいて,本モデルは他の最先端モデルよりも大きなマージンで勝っていることを示す。

Deep neural networks have achieved promising progress in remote sensing (RS) image classification, for which the training process requires abundant samples for each class. However, it is time-consuming and unrealistic to annotate labels for each RS category, given the fact that the RS target database is increasing dynamically. Zero-shot learning (ZSL) allows for identifying novel classes that are not seen during training, which provides a promising solution for the aforementioned problem. However, previous ZSL models mainly depend on manually-labeled attributes or word embeddings extracted from language models to transfer knowledge from seen classes to novel classes. Besides, pioneer ZSL models use convolutional neural networks pre-trained on ImageNet, which focus on the main objects appearing in each image, neglecting the background context that also matters in RS scene classification. To address the above problems, we propose to collect visually detectable attributes automatically. We predict attributes for each class by depicting the semantic-visual similarity between attributes and images. In this way, the attribute annotation process is accomplished by machine instead of human as in other methods. Moreover, we propose a Deep Semantic-Visual Alignment (DSVA) that take advantage of the self-attention mechanism in the transformer to associate local image regions together, integrating the background context information for prediction. The DSVA model further utilizes the attribute attention maps to focus on the informative image regions that are essential for knowledge transfer in ZSL, and maps the visual images into attribute space to perform ZSL classification. With extensive experiments, we show that our model outperforms other state-of-the-art models by a large margin on a challenging large-scale RS scene classification benchmark.
翻訳日:2024-02-06 22:16:35 公開日:2024-02-03
# 逆気象画像融合のための物理知覚ネットワークと全天候マルチモーダリティベンチマーク

Physical Perception Network and an All-weather Multi-modality Benchmark for Adverse Weather Image Fusion ( http://arxiv.org/abs/2402.02090v1 )

ライセンス: Link先を確認
Xilai Li, Wuyang Liu, Xiaosong Li, Haishu Tan(参考訳) マルチモダリティ画像融合(mmif)は異なるモダリティ画像からの補完情報を統合し、シーンの包括的かつ客観的な解釈を提供する。 しかし、既存のMMIF法では、現実のシナリオで異なる気象干渉に抵抗する能力が欠如しており、自律運転のような実践的な応用では利用できない。 この研究ギャップを埋めるため、全天候MMIFモデルを提案した。 ディープラーニングアーキテクチャに関しては、ネットワーク設計はしばしばブラックボックスと見なされ、マルチタスク能力を制限している。 本稿では,光透過率の変動をシーン照明と深度の両方から推定できる大気散乱モデルに基づく,物理的に認識可能な特徴予測モジュールを提案する。 融合モジュールでは,学習可能な低ランク表現モデルを用いて画像の低ランク成分とスパース成分に分解する。 この高度に解釈可能な特徴分離により、イメージをよりよく観察し理解することができます。 さらに,極度気象条件下でのMMIF研究のベンチマークも確立した。 雨、風、雪の3種類の気象条件で複数の場面を包含しており、各気象条件はさらに様々な衝撃レベルに分けられている。 悪天候下での広範囲な核融合実験により,提案手法は精細な回復とマルチモダリティ特徴抽出に優れることを示した。

Multi-modality image fusion (MMIF) integrates the complementary information from different modal images to provide comprehensive and objective interpretation of a scenes. However, existing MMIF methods lack the ability to resist different weather interferences in real-life scenarios, preventing them from being useful in practical applications such as autonomous driving. To bridge this research gap, we proposed an all-weather MMIF model. Regarding deep learning architectures, their network designs are often viewed as a black box, which limits their multitasking capabilities. For deweathering module, we propose a physically-aware clear feature prediction module based on an atmospheric scattering model that can deduce variations in light transmittance from both scene illumination and depth. For fusion module, We utilize a learnable low-rank representation model to decompose images into low-rank and sparse components. This highly interpretable feature separation allows us to better observe and understand images. Furthermore, we have established a benchmark for MMIF research under extreme weather conditions. It encompasses multiple scenes under three types of weather: rain, haze, and snow, with each weather condition further subdivided into various impact levels. Extensive fusion experiments under adverse weather demonstrate that the proposed algorithm has excellent detail recovery and multi-modality feature extraction capabilities.
翻訳日:2024-02-06 22:16:06 公開日:2024-02-03
# DCS-Net: Global Insightsによる漏れのないクラウド事前トレーニングフレームワークのパイオニア化

DCS-Net: Pioneering Leakage-Free Point Cloud Pretraining Framework with Global Insights ( http://arxiv.org/abs/2402.02088v1 )

ライセンス: Link先を確認
Zhe Li, Zhangyang Gao, Cheng Tan, Stan Z. Li, Laurence T. Yang(参考訳) マスク付き自動エンコーディングと生成事前学習はコンピュータビジョンと自然言語処理において顕著な成功を収め、最近ではポイントクラウド領域にまで拡張されている。 それでも、既存のポイントクラウドモデルは、センターポイントの事前サンプリングによる情報漏洩の問題に悩まされており、モデルの簡単なプロキシタスクにつながります。 これらのアプローチは、主にローカルな機能再構成にフォーカスし、ポイントクラウド内のグローバルパターンをキャプチャする能力を制限する。 本稿では、プレテキストタスクの難しさの低減が、表現表現を学習するモデルの能力を損なうことを論じる。 これらの制約に対処するために、微分可能中心サンプリングネットワーク(DCS-Net)と呼ばれる新しいソリューションを導入する。 グローバル機能再構築とローカル機能再構築の両方を非自明なプロキシタスクとして組み込むことで、情報漏洩問題に対処し、ポイントクラウド内のグローバルパターンとローカルパターンの同時学習を可能にする。 実験により,本手法は既存のポイントクラウドモデルの表現能力を高め,情報漏洩問題に効果的に対処することを示す。

Masked autoencoding and generative pretraining have achieved remarkable success in computer vision and natural language processing, and more recently, they have been extended to the point cloud domain. Nevertheless, existing point cloud models suffer from the issue of information leakage due to the pre-sampling of center points, which leads to trivial proxy tasks for the models. These approaches primarily focus on local feature reconstruction, limiting their ability to capture global patterns within point clouds. In this paper, we argue that the reduced difficulty of pretext tasks hampers the model's capacity to learn expressive representations. To address these limitations, we introduce a novel solution called the Differentiable Center Sampling Network (DCS-Net). It tackles the information leakage problem by incorporating both global feature reconstruction and local feature reconstruction as non-trivial proxy tasks, enabling simultaneous learning of both the global and local patterns within point cloud. Experimental results demonstrate that our method enhances the expressive capacity of existing point cloud models and effectively addresses the issue of information leakage.
翻訳日:2024-02-06 22:15:45 公開日:2024-02-03
# DeCoF:フレーム一貫性によるビデオ検出

DeCoF: Generated Video Detection via Frame Consistency ( http://arxiv.org/abs/2402.02085v1 )

ライセンス: Link先を確認
Long Ma, Jiajia Zhang, Hongping Deng, Ningyu Zhang, Yong Liao, Haiyang Yu(参考訳) 先進的な映像生成手法が生み出す映像の品質の高まりは,新たなセキュリティ課題を社会にもたらし,生成映像検出を緊急に研究課題とする。本分野における共同研究の促進のため,我々は,映像検出を明示的に行うための,最初のオープンソースデータセットを構築し,コミュニティがベンチマークし,検出手法を改善するための貴重なリソースを提供する。 一連の注意深く設計されたプローブ実験を通じて,映像生成のための一般およびロバスト検出器の開発において,時間的および空間的アーティファクトの意義について検討した。 映像フレーム一貫性の原理に基づいて,特徴学習の一般化における空間的アーティファクトの影響を排除できる簡易かつ効果的な検出モデル(decof)を提案する。 ビデオ生成モデルが生成するビデオの検出におけるDeCoFの有効性を実証し、その強力な一般化能力を複数の商用プロプライエタリモデルで検証した。

The escalating quality of video generated by advanced video generation methods leads to new security challenges in society, which makes generated video detection an urgent research priority.To foster collaborative research in this area, we construct the first open-source dataset explicitly for generated video detection, providing a valuable resource for the community to benchmark and improve detection methodologies. Through a series of carefully designed probe experiments, our study explores the significance of temporal and spatial artifacts in developing general and robust detectors for generated video. Based on the principle of video frame consistency, we introduce a simple yet effective detection model (DeCoF) that eliminates the impact of spatial artifacts during generalizing feature learning. Our extensive experiments demonstrate the efficacy of DeCoF in detecting videos produced by unseen video generation models and confirm its powerful generalization capabilities across several commercial proprietary models.
翻訳日:2024-02-06 22:15:25 公開日:2024-02-03
# 機械翻訳におけるマルコフ特性の再検討

Revisiting the Markov Property for Machine Translation ( http://arxiv.org/abs/2402.02084v1 )

ライセンス: Link先を確認
Cunxiao Du, Hao Zhou, Zhaopeng Tu, Jing Jiang(参考訳) 本稿では,ニューラルマシン翻訳の文脈におけるマルコフ特性を再検討する。 我々は、マルコフ自己回帰トランスフォーマー(mat)を設計し、その性能を4つのwmtベンチマークで包括的に評価する。 以上の結果から,MATは従来の自己回帰変換器と同等の品質の翻訳を生成できることが示唆された。 さらに,高次MATを利用する利点は,より長い文の翻訳に特に寄与しないことがわかった。

In this paper, we re-examine the Markov property in the context of neural machine translation. We design a Markov Autoregressive Transformer~(MAT) and undertake a comprehensive assessment of its performance across four WMT benchmarks. Our findings indicate that MAT with an order larger than 4 can generate translations with quality on par with that of conventional autoregressive transformers. In addition, counter-intuitively, we also find that the advantages of utilizing a higher-order MAT do not specifically contribute to the translation of longer sentences.
翻訳日:2024-02-06 22:15:08 公開日:2024-02-03
# CaPEを用いたGliDe:投機的デコーディングを高速化する低速手法

GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding ( http://arxiv.org/abs/2402.02082v1 )

ライセンス: Link先を確認
Cunxiao Du, Jing Jiang, Xu Yuanchen, Jiawei Wu, Sicheng Yu, Yongqi Li, Shenggui Li, Kai Xu, Liqiang Nie, Zhaopeng Tu, Yang You(参考訳) speculative decodingは比較的新しいデコーディングフレームワークで、小さく効率的なドラフトモデルを利用してllmのレイテンシを削減する。 本研究では,凍結LDMの復号速度を改善するために,バニラ投機復号法に対する2つの低ハードル修正であるGliDeとCaPEを紹介する。 具体的には、GliDeは、ターゲットLLMからキャッシュされたキーと値を再利用する修正されたドラフトモデルアーキテクチャであり、CaPEは、ドラフトモデルの信頼性スコアを使用して、追加の候補トークンの検証を支援する提案拡張メソッドである。 異なるベンチマークにおける広範囲な実験により,提案するglideドラフトモデルがデコード遅延を著しく低減できることが示されている。 ウォールタイムを用いたさらなる評価により、GliDeはVicunaモデルを2.17倍まで加速し、さらにCaPEで2.61倍まで改善できることが明らかになった。 コード、データ、トレーニングされたドラフトモデルをリリースします。

Speculative decoding is a relatively new decoding framework that leverages small and efficient draft models to reduce the latency of LLMs. In this study, we introduce GliDe and CaPE, two low-hassle modifications to vanilla speculative decoding to further improve the decoding speed of a frozen LLM. Specifically, GliDe is a modified draft model architecture that reuses the cached keys and values from the target LLM, while CaPE is a proposal expansion method that uses the draft model's confidence scores to help select additional candidate tokens for verification. Extensive experiments on different benchmarks demonstrate that our proposed GliDe draft model significantly reduces the expected decoding latency. Additional evaluation using walltime reveals that GliDe can accelerate Vicuna models up to 2.17x and further extend the improvement to 2.61x with CaPE. We will release our code, data, and the trained draft models.
翻訳日:2024-02-06 22:15:00 公開日:2024-02-03
# リスク感性拡散:ノイズサンプルから下位分布を学習する

Risk-Sensitive Diffusion: Learning the Underlying Distribution from Noisy Samples ( http://arxiv.org/abs/2402.02081v1 )

ライセンス: Link先を確認
Yangming Li, Max Ruiz Luyten, Mihaela van der Schaar(参考訳) その結果, 画像合成と異なり, 清潔なデータに富んでいない膨大な環境において, 拡散モデルがノイズサンプルの存在に対して脆弱であることを示し, その可能性を制限することができた。 拡散過程に沿うノイズとクリーンなサンプルの分布ギャップから,このような不安定性が生じたことの動機として,リスク(すなわち,データ「多様性」)によってパラメータ化される確率微分方程式sdeを導入し,ノイズサンプルの分布を調整し,その情報から利益を得ながら誤用を低減した。 リスクに敏感なsdeの最適表現は、特定の雑音分布に依存し、ガウスおよび一般非ガウス摂動のノイズサンプルの誤動作を最小化するパラメータ化を導出する。 我々は,合成データセットと実世界のデータセット(例えば医療時系列)について広範な実験を行い,ノイズの多いサンプルからクリーンなデータ分布を効果的に回収し,条件付き生成ベースラインを著しく上回ることを示す。

While achieving remarkable performances, we show that diffusion models are fragile to the presence of noisy samples, limiting their potential in the vast amount of settings where, unlike image synthesis, we are not blessed with clean data. Motivated by our finding that such fragility originates from the distribution gaps between noisy and clean samples along the diffusion process, we introduce risk-sensitive SDE, a stochastic differential equation that is parameterized by the risk (i.e., data "dirtiness") to adjust the distributions of noisy samples, reducing misguidance while benefiting from their contained information. The optimal expression for risk-sensitive SDE depends on the specific noise distribution, and we derive its parameterizations that minimize the misguidance of noisy samples for both Gaussian and general non-Gaussian perturbations. We conduct extensive experiments on both synthetic and real-world datasets (e.g., medical time series), showing that our model effectively recovers the clean data distribution from noisy samples, significantly outperforming conditional generation baselines.
翻訳日:2024-02-06 22:14:42 公開日:2024-02-03
# 言語間学習における低リソース言語への翻訳誤りの影響

Translation Errors Significantly Impact Low-Resource Languages in Cross-Lingual Learning ( http://arxiv.org/abs/2402.02080v1 )

ライセンス: Link先を確認
Ashish Sunil Agrawal, Barah Fazili, Preethi Jyothi(参考訳) 一般的なベンチマーク(例えばxnli)は、プロの翻訳者の助けを借りて作成された複数のターゲット言語における英語評価セットの並列バージョンからなる言語間理解の評価に使われる。 このような並列データを作成する場合、言語間転送の正確なキャラクタリゼーションのために、すべてのターゲット言語に対して高品質な翻訳を保証することが重要である。 本研究では,XNLIにおける翻訳の不整合が,低リソース言語に不均等に影響を及ぼすことを示す。 そこで本研究では,複数の対象言語におけるゼロショット評価と機械翻訳対象テキスト間の性能の差を,比較的大きな差が翻訳誤差の指標であることを示す。 我々はまた、この2つの言語で人間が翻訳したテストインスタンスを手動で再注釈し、これらのインスタンスが継承されるはずだった元の英語ラベルとの不十分な合意を見つけることで、ヒンディー語とウルドゥー語という2つのターゲット言語に対して翻訳エラーが存在することを裏付ける。

Popular benchmarks (e.g., XNLI) used to evaluate cross-lingual language understanding consist of parallel versions of English evaluation sets in multiple target languages created with the help of professional translators. When creating such parallel data, it is critical to ensure high-quality translations for all target languages for an accurate characterization of cross-lingual transfer. In this work, we find that translation inconsistencies do exist and interestingly they disproportionally impact low-resource languages in XNLI. To identify such inconsistencies, we propose measuring the gap in performance between zero-shot evaluations on the human-translated and machine-translated target text across multiple target languages; relatively large gaps are indicative of translation errors. We also corroborate that translation errors exist for two target languages, namely Hindi and Urdu, by doing a manual reannotation of human-translated test instances in these two languages and finding poor agreement with the original English labels these instances were supposed to inherit.
翻訳日:2024-02-06 22:14:21 公開日:2024-02-03
# アライメントと一様性による推薦型コントラスト学習

Prototypical Contrastive Learning through Alignment and Uniformity for Recommendation ( http://arxiv.org/abs/2402.02079v1 )

ライセンス: Link先を確認
Yangxun Ou, Lei Chen, Fenglin Pan, Yupeng Wu(参考訳) 最も広く採用されているレコメンデーションシステム手法の一つであるグラフコラボレーティブフィルタリング(gcf)は、ユーザとアイテムのインタラクション間の複雑な関係を効果的に捉えている。 グラフコントラスト学習(gcl)ベースのgcfは、実世界のシナリオから貴重な信号を抽出するために自己教師技術を活用することで、大きな注目を集めている。 しかし、多くの方法は通常、ランダムサンプリングによってコントラストペアを構成することを伴う識別タスクの例を学ぶ。 GCLアプローチはサンプリングバイアスの問題に悩まされ、陰性は正に類似した意味構造を持つ可能性があるため、効果的な特徴表現が失われる。 これらの問題に対処するために、推奨のために \underline{A}lignment と \underline{U}niformity を用いて、標準的なコントラスト学習を行い、それを \textbf{ProtoAU} と呼ぶ。 具体的には,まずプロトタイプ(クラスタ・セントロイド)を潜在空間として提案し,原点グラフの異なる拡張点間の整合性を確保することを目的として,無作為な対のランダムサンプリングを不要にすることを目的とした。 さらに、明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。 そこで本研究では,ユーザとアイテムのプロトタイプにおける統一性を維持することを,自明なソリューションに陥ることを防ぐための最適化目標として提案する。 最後に,4つのデータセットについて広範な実験を行い,リンク予測のタスクにおける性能評価を行った。 実験の結果,提案したProtoAUは,他の代表法よりも優れていた。 ProtoAU のソースコードは \url{https://github.com/oceanlvr/ProtoAU} で公開されている。

Graph Collaborative Filtering (GCF), one of the most widely adopted recommendation system methods, effectively captures intricate relationships between user and item interactions. Graph Contrastive Learning (GCL) based GCF has gained significant attention as it leverages self-supervised techniques to extract valuable signals from real-world scenarios. However, many methods usually learn the instances of discrimination tasks that involve the construction of contrastive pairs through random sampling. GCL approaches suffer from sampling bias issues, where the negatives might have a semantic structure similar to that of the positives, thus leading to a loss of effective feature representation. To address these problems, we present the \underline{Proto}typical contrastive learning through \underline{A}lignment and \underline{U}niformity for recommendation, which is called \textbf{ProtoAU}. Specifically, we first propose prototypes (cluster centroids) as a latent space to ensure consistency across different augmentations from the origin graph, aiming to eliminate the need for random sampling of contrastive pairs. Furthermore, the absence of explicit negatives means that directly optimizing the consistency loss between instance and prototype could easily result in dimensional collapse issues. Therefore, we propose aligning and maintaining uniformity in the prototypes of users and items as optimization objectives to prevent falling into trivial solutions. Finally, we conduct extensive experiments on four datasets and evaluate their performance on the task of link prediction. Experimental results demonstrate that the proposed ProtoAU outperforms other representative methods. The source codes of our proposed ProtoAU are available at \url{https://github.com/oceanlvr/ProtoAU}.
翻訳日:2024-02-06 22:14:00 公開日:2024-02-03
# 口語ドイツ語変種に対するタスク指向対話システムのロバスト性を探る

Exploring the Robustness of Task-oriented Dialogue Systems for Colloquial German Varieties ( http://arxiv.org/abs/2402.02078v1 )

ライセンス: Link先を確認
Ekaterina Artemova and Verena Blaschke and Barbara Plank(参考訳) 主流言語間タスク指向対話(ToD)システムは、意図認識とスロットフィリングのための共同モデルを英語で訓練し、それをゼロショットで他の言語に適用することにより、伝達学習パラダイムを活用する。 先行研究のギャップに対処し,テストデータに制限があるため,低リソースの口語型への移行をしばしば見落としていた。 英語の変種に関する先行研究に触発されて、ドイツ語の文を口語形式に変換する摂動規則を作成し、手動で評価し、4つのToDデータセットでテストセットを合成する。 摂動規則は18の異なる言語現象をカバーしており、各摂動がスロットや意図のパフォーマンスに与える影響を探索することができる。 これらの新しいデータセットを用いて、6つの変圧器の実験的評価を行う。 ここでは,各品種に適用した場合,ToDシステムは意図認識性能を維持し,平均精度で6%(4.62ポイント)を失うことを示した。 しかし、スロットF1スコアの31%(21ポイント)が減少し、スロット検出が大幅に低下した。 本研究は,標準アメリカ英語から人工都市アフリカアメリカ英語への移行実験により,さらに支持された。

Mainstream cross-lingual task-oriented dialogue (ToD) systems leverage the transfer learning paradigm by training a joint model for intent recognition and slot-filling in English and applying it, zero-shot, to other languages. We address a gap in prior research, which often overlooked the transfer to lower-resource colloquial varieties due to limited test data. Inspired by prior work on English varieties, we craft and manually evaluate perturbation rules that transform German sentences into colloquial forms and use them to synthesize test sets in four ToD datasets. Our perturbation rules cover 18 distinct language phenomena, enabling us to explore the impact of each perturbation on slot and intent performance. Using these new datasets, we conduct an experimental evaluation across six different transformers. Here, we demonstrate that when applied to colloquial varieties, ToD systems maintain their intent recognition performance, losing 6% (4.62 percentage points) in accuracy on average. However, they exhibit a significant drop in slot detection, with a decrease of 31% (21 percentage points) in slot F1 score. Our findings are further supported by a transfer experiment from Standard American English to synthetic Urban African American Vernacular English.
翻訳日:2024-02-06 22:13:11 公開日:2024-02-03
# ドメイン固有演算子とアンサンブル多様性を用いた自動ワークフロー合成のための文法に基づく進化的アプローチ

Grammar-based evolutionary approach for automated workflow composition with domain-specific operators and ensemble diversity ( http://arxiv.org/abs/2402.02124v1 )

ライセンス: Link先を確認
Rafael Barbudo and Aurora Ram\'irez and Jos\'e Ra\'ul Romero(参考訳) 生データから価値ある新しい洞察を抽出するプロセスには、一連の複雑なステップが含まれる。 自動機械学習(automl)の分野では、このプロセスの側面、特にアルゴリズムの選択やハイパーパラメータの最適化といったタスクの自動化に重点が置かれている。 AutoMLの特に難しいタスクは、自動ワークフロー合成(AWC)である。 AWCは、特定のデータセットに対して、最も効果的なデータ前処理とMLアルゴリズムのシーケンスと、最高のハイパーパラメータを併用することを目的としている。 しかし、既存のAWCメソッドはワークフロー内でアルゴリズムを組み合わせる方法の数と方法に制限がある。 本稿では,AWCの文法に基づく進化的アプローチであるEvoFlowを紹介する。 evoflowはワークフロー構造の設計の柔軟性を高め、特定の要件に最も適したアルゴリズムを実践者に選択させる。 EvoFlowは、2つの革新的な機能を統合することで際立っている。 まず、ワークフローの構造とハイパーパラメータの両方を最適化するために、AWC用に特別に設計された一連の遺伝子操作子を使用している。 第二に、異なるワークフローによってなされるさまざまな予測を豊かにする、新しい更新メカニズムを実装している。 この多様性を促進することは、アルゴリズムの過度な適合を防ぐのに役立つ。 この目的により、EvoFlowは、ワークフローが誤って分類されたインスタンスで異なるアンサンブルを構築する。 EvoFlowの有効性を評価するために,分類ベンチマークを用いて実験的な検証を行った。 まず、EvoFlowのユニークなコンポーネントに起因するパフォーマンス向上を示すアブレーション研究から始める。 次に、進化的手法と非進化的手法の両方を含む他のAWC手法と比較する。 以上の結果から,evoflowの遺伝子操作と更新機構は,現在のリード手法を実質的に上回っていることが示唆された。

The process of extracting valuable and novel insights from raw data involves a series of complex steps. In the realm of Automated Machine Learning (AutoML), a significant research focus is on automating aspects of this process, specifically tasks like selecting algorithms and optimising their hyper-parameters. A particularly challenging task in AutoML is automatic workflow composition (AWC). AWC aims to identify the most effective sequence of data preprocessing and ML algorithms, coupled with their best hyper-parameters, for a specific dataset. However, existing AWC methods are limited in how many and in what ways they can combine algorithms within a workflow. Addressing this gap, this paper introduces EvoFlow, a grammar-based evolutionary approach for AWC. EvoFlow enhances the flexibility in designing workflow structures, empowering practitioners to select algorithms that best fit their specific requirements. EvoFlow stands out by integrating two innovative features. First, it employs a suite of genetic operators, designed specifically for AWC, to optimise both the structure of workflows and their hyper-parameters. Second, it implements a novel updating mechanism that enriches the variety of predictions made by different workflows. Promoting this diversity helps prevent the algorithm from overfitting. With this aim, EvoFlow builds an ensemble whose workflows differ in their misclassified instances. To evaluate EvoFlow's effectiveness, we carried out empirical validation using a set of classification benchmarks. We begin with an ablation study to demonstrate the enhanced performance attributable to EvoFlow's unique components. Then, we compare EvoFlow with other AWC approaches, encompassing both evolutionary and non-evolutionary techniques. Our findings show that EvoFlow's specialised genetic operators and updating mechanism substantially outperform current leading methods[..]
翻訳日:2024-02-06 22:05:00 公開日:2024-02-03
# ディープラーニングを用いた合成SAR-Opticalデータ生成による作物分類精度の向上

Enhancing crop classification accuracy by synthetic SAR-Optical data generation using deep learning ( http://arxiv.org/abs/2402.02121v1 )

ライセンス: Link先を確認
Ali Mirzaei, Hossein Bagheri, and Iman Khosravi(参考訳) 近年,リモートセンシングデータを用いた作物分類が研究分野として注目されている。 SARと光学画像の融合は分類の精度を大幅に向上させることを示した。 しかし、この分野での大きな課題は、分類器の性能に悪影響を及ぼす訓練データの可用性の制限である。 農業地域では、優占作物は典型的には1種または2種であり、他の作物は少ない。 そのため、農作物の地図を作成するためにトレーニングサンプルを収集する場合、優占作物からのサンプルが多数存在し、多数派を形成している。 逆に、他の作物からのサンプルは少なく、少数派を代表している。 この問題に対処するには、従来のデータ生成メソッドに関連するいくつかの課題と弱点を克服する必要がある。 これらの手法はトレーニングデータの不均衡な性質に対処するために用いられている。 それでもなお、少数派階級を効果的に扱う上での限界に直面している。 全体として、不適切なトレーニングデータ、特にマイノリティクラスの問題は、従来の方法が克服に苦慮しているハードルである。 本研究では,SAR-光データの融合による作物分類におけるマイノリティクラスに対する限定的な訓練データの課題に対処するために,ディープラーニングネットワークに基づく合成データ生成手法として,条件付き表層生成逆数ネットワーク(CTGAN)の有効性を検討する。 その結果,提案手法は品質の高い合成データを生成し,マイノリティクラスのサンプル数を著しく増加させ,作物分類器の性能向上に繋がることがわかった。

Crop classification using remote sensing data has emerged as a prominent research area in recent decades. Studies have demonstrated that fusing SAR and optical images can significantly enhance the accuracy of classification. However, a major challenge in this field is the limited availability of training data, which adversely affects the performance of classifiers. In agricultural regions, the dominant crops typically consist of one or two specific types, while other crops are scarce. Consequently, when collecting training samples to create a map of agricultural products, there is an abundance of samples from the dominant crops, forming the majority classes. Conversely, samples from other crops are scarce, representing the minority classes. Addressing this issue requires overcoming several challenges and weaknesses associated with traditional data generation methods. These methods have been employed to tackle the imbalanced nature of the training data. Nevertheless, they still face limitations in effectively handling the minority classes. Overall, the issue of inadequate training data, particularly for minority classes, remains a hurdle that traditional methods struggle to overcome. In this research, We explore the effectiveness of conditional tabular generative adversarial network (CTGAN) as a synthetic data generation method based on a deep learning network, in addressing the challenge of limited training data for minority classes in crop classification using the fusion of SAR-optical data. Our findings demonstrate that the proposed method generates synthetic data with higher quality that can significantly increase the number of samples for minority classes leading to better performance of crop classifiers.
翻訳日:2024-02-06 22:04:34 公開日:2024-02-03
# Andreev スピン量子ビットに対する一般化トランモンハミルトニアン

Generalized transmon Hamiltonian for Andreev spin qubits ( http://arxiv.org/abs/2402.02118v1 )

ライセンス: Link先を確認
Luka Pave\v{s}i\'c and Rok \v{Z}itko(参考訳) 我々は、トランスモン(クーパーペアボックス)ハミルトニアンによって記述された有限電荷エネルギーを持つ2つの超伝導体の間のジョセフソン接合に埋め込まれた相互作用量子ドットの問題を解く。 このアプローチはリチャードソンモデルのフラットバンド近似に基づいており、これはヒルベルト空間を、低エネルギー現象を記述するのに必要な全ての状態を保持しながら、正確な対角化が可能な点まで減少させる。 提案法は、量子ドット、ジョセフソン効果、クーロン反発(チャージエネルギー)の物理を同じレベルで説明する。 特に、超伝導相の量子揺らぎと、超伝導相と量子ドット(スピン)の自由度との間の結合を捉えている。 この方法は、全てのパラメーターレギュアにおいてトランスモン回路に埋め込まれたアンドレーフスピンキュービットのモデリング、時間依存プロセスの記述、および電荷や現在の自由度に結合するマイクロ波駆動トランスモン、スピンフリップ、混合遷移の遷移行列要素の計算に直接適用することができる。

We solve the problem of an interacting quantum dot embedded in a Josephson junction between two superconductors with finite charging energy described by the transmon (Cooper pair box) Hamiltonian. The approach is based on the flat-band approximation of the Richardson model, which reduces the Hilbert space to the point where exact diagonalisation is possible while retaining all states that are necessary to describe the low energy phenomena. The presented method accounts for the physics of the quantum dot, the Josephson effect and the Coulomb repulsion (charging energy) at the same level. In particular, it captures the quantum fluctuations of the superconducting phase as well as the coupling between the superconducting phase and the quantum dot (spin) degrees of freedom. The method can be directly applied for modelling Andreev spin qubits embedded in transmon circuits in all parameter regimes, for describing time-dependent processes, and for the calculation of transition matrix elements for microwave-driven transmon, spin-flip and mixed transitions that involve coupling to charge or current degree of freedom.
翻訳日:2024-02-06 22:04:10 公開日:2024-02-03
# 分散オンライン最適化における遅延フィードバック処理 : プロジェクションフリーアプローチ

Handling Delayed Feedback in Distributed Online Optimization : A Projection-Free Approach ( http://arxiv.org/abs/2402.02114v1 )

ライセンス: Link先を確認
Tuan-Anh Nguyen, Nguyen Kim Thang, Denis Trystram(参考訳) 大量のデータがローカルに継続的に生成されるため、エッジでの学習はますます重要になっている。 このパラダイムでは、単純なアルゴリズム(ローカルデバイスで実行できるように)、堅牢な(データが継続的に生成されるような不確実性)、ネットワーク問題、特に遅延の下で分散的な方法で信頼性を必要とする。 本研究では,逆の遅延フィードバックによるオンライン凸最適化の問題について検討する。 そこで我々は,B が遅延の和である O(\sqrt{B}) の後悔境界を達成するために慎重に設計された,集中型および分散型設定のための2つのプロジェクションフリーアルゴリズムを提案し,これはまだプロジェクションフリーでありながら,遅延設定における OCO 問題に最適である。 我々は,実世界の問題に対して既存のアルゴリズムと比較し,アルゴリズムの性能を実験的に検証した。

Learning at the edges has become increasingly important as large quantities of data are continually generated locally. Among others, this paradigm requires algorithms that are simple (so that they can be executed by local devices), robust (again uncertainty as data are continually generated), and reliable in a distributed manner under network issues, especially delays. In this study, we investigate the problem of online convex optimization under adversarial delayed feedback. We propose two projection-free algorithms for centralised and distributed settings in which they are carefully designed to achieve a regret bound of O(\sqrt{B}) where B is the sum of delay, which is optimal for the OCO problem in the delay setting while still being projection-free. We provide an extensive theoretical study and experimentally validate the performance of our algorithms by comparing them with existing ones on real-world problems.
翻訳日:2024-02-06 22:03:50 公開日:2024-02-03
# 多言語感性語彙を用いた低リソース言語におけるゼロショット感性解析

Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon ( http://arxiv.org/abs/2402.02113v1 )

ライセンス: Link先を確認
Fajri Koto and Tilman Beck and Zeerak Talat and Iryna Gurevych and Timothy Baldwin(参考訳) 低リソース言語における多言語モデルの改善は、これらの言語における大規模データの不足のため、一般的には困難である。 本稿では,多言語レキシコンを事前学習に利用して,低リソース言語におけるテキストへの依存を緩和し,多言語機能の向上を図る。 具体的には、34言語にまたがるゼロショット感情分析タスクに重点を置いており、6つのハイ/medium-resource言語、25の低リソース言語、3つのコードスイッチデータセットを含む。 文レベルの感情データを用いずに,多言語辞書を用いた事前学習が,英語感情データセットやgpt--3.5,bloomz,xglmなどの大規模言語モデルと比較して,ゼロショット性能に優れていることを示す。 これらの発見は、未発見の低リソース言語から高リソース言語を含むコード混合シナリオに観察可能である。

Improving multilingual language models capabilities in low-resource languages is generally difficult due to the scarcity of large-scale data in those languages. In this paper, we relax the reliance on texts in low-resource languages by using multilingual lexicons in pretraining to enhance multilingual capabilities. Specifically, we focus on zero-shot sentiment analysis tasks across 34 languages, including 6 high/medium-resource languages, 25 low-resource languages, and 3 code-switching datasets. We demonstrate that pretraining using multilingual lexicons, without using any sentence-level sentiment data, achieves superior zero-shot performance compared to models fine-tuned on English sentiment datasets, and large language models like GPT--3.5, BLOOMZ, and XGLM. These findings are observable for unseen low-resource languages to code-mixed scenarios involving high-resource languages.
翻訳日:2024-02-06 22:03:34 公開日:2024-02-03
# ベイズ最適化におけるルック・アヘッドの加速:マルチレベルモンテカルロ

Accelerating Look-ahead in Bayesian Optimization: Multilevel Monte Carlo is All you Need ( http://arxiv.org/abs/2402.02111v1 )

ライセンス: Link先を確認
Shangda Yang, Vitaly Zankin, Maximilian Balandat, Stefan Scherer, Kevin Carlberg, Neil Walton, and Kody J. H. Law(参考訳) 我々はマルチレベルモンテカルロ(MLMC)を利用して、ネストされた期待と最大化を含む多段階ベイズ最適化(BO)法の性能を向上させる。 ナイーブモンテカルロの複雑性はネスト演算で劣化するが、mlmcは次元とは無関係に、滑らかな仮定なしに、このタイプの問題に対して標準モンテカルロ収束率を達成することができる。 本研究は,一段階および二段階のルック・アヘッド獲得関数の近似改善に焦点をあてるが,議論では,boの文脈を超えて,様々な方法でそのアプローチが一般化されている。 数値的な検証を行い、いくつかのベンチマーク例でMLMC for BOの利点を示す。 コードはhttps://github.com/Shangda-Yang/MLMCBOで入手できる。

We leverage multilevel Monte Carlo (MLMC) to improve the performance of multi-step look-ahead Bayesian optimization (BO) methods that involve nested expectations and maximizations. The complexity rate of naive Monte Carlo degrades for nested operations, whereas MLMC is capable of achieving the canonical Monte Carlo convergence rate for this type of problem, independently of dimension and without any smoothness assumptions. Our theoretical study focuses on the approximation improvements for one- and two-step look-ahead acquisition functions, but, as we discuss, the approach is generalizable in various ways, including beyond the context of BO. Findings are verified numerically and the benefits of MLMC for BO are illustrated on several benchmark examples. Code is available here https://github.com/Shangda-Yang/MLMCBO.
翻訳日:2024-02-06 22:03:17 公開日:2024-02-03
# 複合アクティブラーニング:理論的保証者によるマルチドメインアクティブラーニングを目指して

Composite Active Learning: Towards Multi-Domain Active Learning with Theoretical Guarantees ( http://arxiv.org/abs/2402.02110v1 )

ライセンス: Link先を確認
Guang-Yuan Hao, Hengguan Huang, Haotian Wang, Jie Gao, Hao Wang(参考訳) アクティブラーニング(al)は、ラベル付けする最も有益なデータポイントを選択することで、固定ラベル付け予算内でモデルパフォーマンスを改善することを目的としている。 既存のalは、すべてのデータが同じドメイン(例えば同じデータセット)から来るシングルドメイン設定にフォーカスしている。 しかし、現実世界の多くのタスクは、しばしば複数のドメインを含む。 例えば、視覚認識では、異なる環境(例えば、異なる背景)で動作し、各環境のイメージが1つのドメインを構成するイメージ分類器を訓練することが望ましい。 このようなマルチドメインal設定は,(1)ラベリング予算の割り当て時に異なるドメイン間の類似性を無視し,(2)異なるドメイン間のデータの分散シフトを処理できないため,先行手法では困難である。 本稿では,マルチドメインALのための合成能動学習(CAL)と呼ばれる最初の汎用手法を提案する。 calはまずドメインレベルの重要度に応じて、ドメインレベルの予算を割り当てます。これは、我々が開発する上位のエラー境界を最適化することで見積もられています。 理論解析により,本手法は現在のAL法よりも優れた誤差境界が得られることが示された。 実験の結果,本手法は,合成および実世界のマルチドメインデータセットにおいて,最先端のAL手法よりも大幅に優れていることが示された。 コードはhttps://github.com/Wang-ML-Lab/multi-domain-active-learningで入手できる。

Active learning (AL) aims to improve model performance within a fixed labeling budget by choosing the most informative data points to label. Existing AL focuses on the single-domain setting, where all data come from the same domain (e.g., the same dataset). However, many real-world tasks often involve multiple domains. For example, in visual recognition, it is often desirable to train an image classifier that works across different environments (e.g., different backgrounds), where images from each environment constitute one domain. Such a multi-domain AL setting is challenging for prior methods because they (1) ignore the similarity among different domains when assigning labeling budget and (2) fail to handle distribution shift of data across different domains. In this paper, we propose the first general method, dubbed composite active learning (CAL), for multi-domain AL. Our approach explicitly considers the domain-level and instance-level information in the problem; CAL first assigns domain-level budgets according to domain-level importance, which is estimated by optimizing an upper error bound that we develop; with the domain-level budgets, CAL then leverages a certain instance-level query strategy to select samples to label from each domain. Our theoretical analysis shows that our method achieves a better error bound compared to current AL methods. Our empirical results demonstrate that our approach significantly outperforms the state-of-the-art AL methods on both synthetic and real-world multi-domain datasets. Code is available at https://github.com/Wang-ML-Lab/multi-domain-active-learning.
翻訳日:2024-02-06 22:03:04 公開日:2024-02-03
# 合成からリアルへ:ビデオパーソナライズのための合成データのパワーを披露する

From Synthetic to Real: Unveiling the Power of Synthetic Data for Video Person Re-ID ( http://arxiv.org/abs/2402.02108v1 )

ライセンス: Link先を確認
Xiangqun Zhang, Ruize Han, Wei Feng(参考訳) 本稿では,クロスドメインビデオに基づく人物再識別(Re-ID)の新たな課題について検討する。 具体的には、合成ビデオデータセットをトレーニングのソースドメインとして、実世界のビデオを使ってテストし、実際のトレーニングデータ収集とアノテーションへの依存を著しく低減する。 ビデオ人物の合成データのパワーを明らかにするために,まず静的特徴と時間的特徴の両方を対象とした自己教師付きドメイン不変特徴学習戦略を提案する。 そこで,対象領域における人物識別能力をさらに向上するため,自己教師型ID一貫性損失を用いた平均教師制を考案した。 4つの実データを用いた実験結果から,クロスシンセティック・リアル領域適応の合理性と本手法の有効性が検証された。 また、クロスドメイン設定における実際のデータよりも、合成データがより優れていることに驚きます。

In this paper, we study a new problem of cross-domain video based person re-identification (Re-ID). Specifically, we take the synthetic video dataset as the source domain for training and use the real-world videos for testing, which significantly reduces the dependence on real training data collection and annotation. To unveil the power of synthetic data for video person Re-ID, we first propose a self-supervised domain invariant feature learning strategy for both static and temporal features. Then, to further improve the person identification ability in the target domain, we develop a mean-teacher scheme with the self-supervised ID consistency loss. Experimental results on four real datasets verify the rationality of cross-synthetic-real domain adaption and the effectiveness of our method. We are also surprised to find that the synthetic data performs even better than the real data in the cross-domain setting.
翻訳日:2024-02-06 22:02:38 公開日:2024-02-03
# ParZC: 効率的なNASのためのパラメトリックゼロコストプロキシ

ParZC: Parametric Zero-Cost Proxies for Efficient NAS ( http://arxiv.org/abs/2402.02105v1 )

ライセンス: Link先を確認
Peijie Dong, Lujun Li, Xinglin Pan, Zimian Wei, Xiang Liu, Qiang Wang, Xiaowen Chu(参考訳) Zero-shot Neural Architecture Search (NAS)の最近の進歩は、さまざまなNASベンチマークにおけるゼロコストプロキシの有効性を強調している。 いくつかの研究は、SOTA性能を達成するためにゼロコストプロキシの自動設計を提案するが、面倒な探索の進捗が必要である。 ニューラルネットワーク内のすべてのノードが性能評価に等しく影響を及ぼすわけではないという事実を考慮せずに、ノード毎のゼロコスト統計を集計する。 観測の結果,ノード単位のゼロコスト統計は,各ノードが不確実性を示すため,その性能に対する寄与が著しく異なることがわかった。 この知見に基づき,パラメトリックゼロコストプロキシ(ParZC)フレームワークを導入し,パラメータ化によるゼロコストプロキシの適応性を向上する。 ノード識別に対処するため,ノード単位のゼロコスト統計を探索し,ノード固有不確かさを推定するMixer Architecture with Bayesian Network (MABN)を提案する。 さらに、DiffKendallを損失関数として提案し、KendallのTau係数を直接微分可能な方法で最適化し、ParZCがランキングアーキテクチャの相違性をよりよく扱えるようにする。 NAS-Bench-101, 201, NDSに関する総合的な実験は、既存のゼロショットNAS法と比較して提案したParZCの優位性を示した。 さらに、視覚変換器の探索空間に転送することで、ParZCの汎用性と適応性を示す。

Recent advancements in Zero-shot Neural Architecture Search (NAS) highlight the efficacy of zero-cost proxies in various NAS benchmarks. Several studies propose the automated design of zero-cost proxies to achieve SOTA performance but require tedious searching progress. Furthermore, we identify a critical issue with current zero-cost proxies: they aggregate node-wise zero-cost statistics without considering the fact that not all nodes in a neural network equally impact performance estimation. Our observations reveal that node-wise zero-cost statistics significantly vary in their contributions to performance, with each node exhibiting a degree of uncertainty. Based on this insight, we introduce a novel method called Parametric Zero-Cost Proxies (ParZC) framework to enhance the adaptability of zero-cost proxies through parameterization. To address the node indiscrimination, we propose a Mixer Architecture with Bayesian Network (MABN) to explore the node-wise zero-cost statistics and estimate node-specific uncertainty. Moreover, we propose DiffKendall as a loss function to directly optimize Kendall's Tau coefficient in a differentiable manner so that our ParZC can better handle the discrepancies in ranking architectures. Comprehensive experiments on NAS-Bench-101, 201, and NDS demonstrate the superiority of our proposed ParZC compared to existing zero-shot NAS methods. Additionally, we demonstrate the versatility and adaptability of ParZC by transferring it to the Vision Transformer search space.
翻訳日:2024-02-06 22:02:23 公開日:2024-02-03
# 依存型の学習構造認識表現

Learning Structure-Aware Representations of Dependent Types ( http://arxiv.org/abs/2402.02104v1 )

ライセンス: Link先を確認
Konstantinos Kogkalidis, Orestis Melkonian, Jean-Philippe Bernardy(参考訳) Agdaは依存型プログラミング言語であり、証明の形式化とプログラミング言語理論において重要な役割を担っている。 本稿では、Agdaエコシステムを機械学習領域に拡張し、Agda関連のリソースを機械学習実践者に提供します。 私たちは、さまざまな機械学習アプリケーションをサポートするのに十分な精巧で広範なAgdaプログラムプロテクションのデータセットを導入してリリースします。 データセットの超高分解能を活用し、証明状態をサブタイプレベルで詳述し、名目上の原則ではなく構造に基づいて依存型プログラムを忠実に表現することを目的とした新しいニューラルネットワークを提案する。 アーキテクチャを前提選択設定でインスタンス化し、評価し、そこで強力な初期結果を得る。

Agda is a dependently-typed programming language and a proof assistant, pivotal in proof formalization and programming language theory. This paper extends the Agda ecosystem into machine learning territory, and, vice versa, makes Agda-related resources available to machine learning practitioners. We introduce and release a novel dataset of Agda program-proofs that is elaborate and extensive enough to support various machine learning applications -- the first of its kind. Leveraging the dataset's ultra-high resolution, detailing proof states at the sub-type level, we propose a novel neural architecture targeted at faithfully representing dependently-typed programs on the basis of structural rather than nominal principles. We instantiate and evaluate our architecture in a premise selection setup, where it achieves strong initial results.
翻訳日:2024-02-06 22:01:59 公開日:2024-02-03
# 視覚言語モデルにおけるD\'ej\`a Vu記憶

D\'ej\`a Vu Memorization in Vision-Language Models ( http://arxiv.org/abs/2402.02103v1 )

ライセンス: Link先を確認
Bargav Jayaraman, Chuan Guo, Kamalika Chaudhuri(参考訳) 視覚言語モデル(vlms)は最先端の表現学習ソリューションとして登場し、画像分類や検索、生成といった下流のアプリケーションも数多く存在する。 自然な疑問は、これらのモデルがトレーニングデータを記憶しているかどうかである。 本稿では,VLMの記憶量を測定する新しい手法を提案し,これをd\'ej\`a vu記憶量と呼ぶ。 画像キャプチャペアで訓練されたVLMに対して、このモデルは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報を実際に保持していることを示す。 サンプルおよび個体群レベルでのd\'ej\``a vu記憶の評価を行い,最大5000万枚の画像カプセルで訓練したOpenCLIPにとって重要であることを示す。 最後に, テキストのランダム化は, ダウンストリームタスクの性能にわずかに影響を与えながら, メモリ化を著しく軽減することを示す。

Vision-Language Models (VLMs) have emerged as the state-of-the-art representation learning solution, with myriads of downstream applications such as image classification, retrieval and generation. A natural question is whether these models memorize their training data, which also has implications for generalization. We propose a new method for measuring memorization in VLMs, which we call d\'ej\`a vu memorization. For VLMs trained on image-caption pairs, we show that the model indeed retains information about individual objects in the training images beyond what can be inferred from correlations or the image caption. We evaluate d\'ej\`a vu memorization at both sample and population level, and show that it is significant for OpenCLIP trained on as many as 50M image-caption pairs. Finally, we show that text randomization considerably mitigates memorization while only moderately impacting the model's downstream task performance.
翻訳日:2024-02-06 22:01:46 公開日:2024-02-03
# 大規模言語モデルは迅速な最適化に役立つか?

Are Large Language Models Good Prompt Optimizers? ( http://arxiv.org/abs/2402.02101v1 )

ライセンス: Link先を確認
Ruotian Ma, Xiaolei Wang, Xin Zhou, Jian Li, Nan Du, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) LLMをベースとしたオートマチック・プロンプト・オプティマイザ(Automatic Prompt Optimization, LLM)は, 近年の研究で有望な性能を示した。 成功にもかかわらず、このアプローチの基盤となるメカニズムは未解明のままであり、Prompt OptimizersとしてのLLMの真の有効性にはさらなる検証が必要である。 本研究では,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするための総合的研究を行った。 この結果から, LLMオプティマイザは, 反射中の誤差の真の原因を特定するのに苦労していることが明らかとなった。 さらに、リフレクションが意味的に有効である場合でも、llmオプティマイザは、ターゲットモデルの予測不能な振る舞いのために、単一のプロンプトリファインメントステップで、ターゲットモデルに対して適切なプロンプトを生成することができないことが多い。 観察に基づいて,より制御しやすい方法で対象モデルの動作を直接最適化する新しい「自動行動最適化」パラダイムを導入する。 この研究が、自動最適化開発のための新しい方向性を刺激できることを願っています。

LLM-based Automatic Prompt Optimization, which typically utilizes LLMs as Prompt Optimizers to self-reflect and refine prompts, has shown promising performance in recent studies. Despite the success, the underlying mechanism of this approach remains unexplored, and the true effectiveness of LLMs as Prompt Optimizers requires further validation. In this work, we conducted a comprehensive study to uncover the actual mechanism of LLM-based Prompt Optimization. Our findings reveal that the LLM optimizers struggle to identify the true causes of errors during reflection, tending to be biased by their own prior knowledge rather than genuinely reflecting on the errors. Furthermore, even when the reflection is semantically valid, the LLM optimizers often fail to generate appropriate prompts for the target models with a single prompt refinement step, partly due to the unpredictable behaviors of the target models. Based on the observations, we introduce a new "Automatic Behavior Optimization" paradigm, which directly optimizes the target model's behavior in a more controllable manner. We hope our study can inspire new directions for automatic prompt optimization development.
翻訳日:2024-02-06 22:01:27 公開日:2024-02-03
# 弱測定に基づく新しい次元なし擬似スピンポインター:精度測定のためのコスト効率の高いスキーム

New dimensionless pseudo-spin pointer based on weak measurement: a cost-effective scheme for precision measurement ( http://arxiv.org/abs/2402.02100v1 )

ライセンス: Link先を確認
Ling Ye, Lan Luo, An Wang, Rongchun Ge, Zhiyou Zhang(参考訳) 最先端量子技術の不可欠な構成要素として、高速で効率的な量子測定は、時間とともに持続的な需要がある。 弱測定に基づく新しい次元無次元擬似スピンポインターの実証実験について述べる。 光パラメータ推定の文脈において、パラメトリック分布のモーメントは、文字通り分布を測定することなく次元のないポインターを用いて実験的に得られることを示す。 実験費用の解放に加えて、光子カウンタベースのポインターは弱い信号の検出に適している。 面積アレイカメラ法よりも強度が弱い信号に対して,精度向上の順序が実験的に達成されていることを示す。

As an essential component of state-of-the-art quantum technologies, fast and efficient quantum measurements are in persistent demand over time. We present a proof-of-principle experiment on a new dimensionless pseudo-spin pointer based on weak measurement. In the context of optical parameter estimation, we demonstrate that the parametric distribution's moment is obtained experimentally by employing the dimensionless pointer without measuring the distribution literally. In addition to the sheer liberation of experimental expense, the photon-countering-based pointer is well-calibrated for the detection of weak signals. We show that for signals $3$-$4$ orders of weaker in strength than the area-array camera method, an order of improvement in precision is achieved experimentally.
翻訳日:2024-02-06 22:01:03 公開日:2024-02-03
# 多言語言語モデルにおける言語間知識伝達の評価解析

Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in Multilingual Language Models ( http://arxiv.org/abs/2402.02099v1 )

ライセンス: Link先を確認
Sara Rajaee and Christof Monz(参考訳) 大規模データセット上での多言語言語モデルのトレーニングの最近の進歩は、言語間の知識伝達の有望な結果を示し、下流タスクで高いパフォーマンスを実現しているようである。 しかし、現在の評価ベンチマークと設定がゼロショット言語間知識伝達を正確に測定しているかどうか疑問視する。 本研究では,目的タスクにおけるゼロショット性能が,複数言語のインスタンスを含むより困難なセットアップを導入することで,言語間能力の向上を反映しているという仮定に挑戦する。 広範にわたる実験と分析により,多言語モデルの高機能化は,タスクレベルの知識や表面レベルの知識など,実際の言語知識の伝達を必要としない要因に大きく寄与することが示された。 具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。 本研究は,多言語モデルの言語横断能力をより微妙に理解するため,既存の言語横断テストデータと評価設定の欠点を浮き彫りにするものである。

Recent advances in training multilingual language models on large datasets seem to have shown promising results in knowledge transfer across languages and achieve high performance on downstream tasks. However, we question to what extent the current evaluation benchmarks and setups accurately measure zero-shot cross-lingual knowledge transfer. In this work, we challenge the assumption that high zero-shot performance on target tasks reflects high cross-lingual ability by introducing more challenging setups involving instances with multiple languages. Through extensive experiments and analysis, we show that the observed high performance of multilingual models can be largely attributed to factors not requiring the transfer of actual linguistic knowledge, such as task- and surface-level knowledge. More specifically, we observe what has been transferred across languages is mostly data artifacts and biases, especially for low-resource languages. Our findings highlight the overlooked drawbacks of existing cross-lingual test data and evaluation setups, calling for a more nuanced understanding of the cross-lingual capabilities of multilingual models.
翻訳日:2024-02-06 22:00:52 公開日:2024-02-03
# 拡散クロスドメイン勧告

Diffusion Cross-domain Recommendation ( http://arxiv.org/abs/2402.02182v1 )

ライセンス: Link先を確認
Yuner Xuan(参考訳) コールドスタートユーザーに高品質な結果を提供することは、レコメンダシステムにとって常に課題である。 ターゲットドメインのコールドスタートユーザにとって、データ空間の問題を軽減するための潜在的な解決策は、補助ドメインからのデータを追加することである。 補助ドメインから知識を抽出して対象ドメインに転送する適切な方法を見つけることは、クロスドメインレコメンデーション(CDR)研究の主要な目的の1つである。 既存の手法の中で、マッピングアプローチはクロスドメインレコメンデーションモデル(CDR)を実装するのに人気がある。 このタイプのモデルの場合、マッピングモジュールは、あるドメインから別のドメインへデータを変換する役割を担います。 主に、マッピングアプローチのCDRの性能を決定する。 近年,拡散確率モデル (dpms) は画像合成関連課題において大きな成功を収めている。 ノイズ付加サンプルからのイメージの復元を伴い、優れたパフォーマンスを持つデータ変換プロセスと見なすことができる。 CDRの性能をさらに向上するため、まずDPMとCDRのマッピングモジュールとの潜在的な接続を明らかにし、次に拡散クロスドメイン勧告(DiffCDR)と呼ばれる新しいCDRモデルを提案する。 具体的には、まずDPMの理論を採用し、ターゲットドメインにユーザの埋め込みを生成する拡散モジュール(DIM)を設計する。 dimに導入されたランダムネスの悪影響を低減し、安定性を向上させるため、アライメントモジュールを用いてアライメントユーザ埋め込みを生成する。 さらに、ターゲットドメインのラベルデータを検討し、タスク指向の損失関数を作成し、DiffCDRが特定のタスクに適応できるようにする。 現実から収集したデータセットに関する広範な実験を行うことで、冷間開始シナリオと暖間開始シナリオの両方において、様々なCDRタスクのベースラインモデルを上回る性能と適応性を示す。

It is always a challenge for recommender systems to give high-quality outcomes to cold-start users. One potential solution to alleviate the data sparsity problem for cold-start users in the target domain is to add data from the auxiliary domain. Finding a proper way to extract knowledge from an auxiliary domain and transfer it into a target domain is one of the main objectives for cross-domain recommendation (CDR) research. Among the existing methods, mapping approach is a popular one to implement cross-domain recommendation models (CDRs). For models of this type, a mapping module plays the role of transforming data from one domain to another. It primarily determines the performance of mapping approach CDRs. Recently, diffusion probability models (DPMs) have achieved impressive success for image synthesis related tasks. They involve recovering images from noise-added samples, which can be viewed as a data transformation process with outstanding performance. To further enhance the performance of CDRs, we first reveal the potential connection between DPMs and mapping modules of CDRs, and then propose a novel CDR model named Diffusion Cross-domain Recommendation (DiffCDR). More specifically, we first adopt the theory of DPM and design a Diffusion Module (DIM), which generates user's embedding in target domain. To reduce the negative impact of randomness introduced in DIM and improve the stability, we employ an Alignment Module to produce the aligned user embeddings. In addition, we consider the label data of the target domain and form the task-oriented loss function, which enables our DiffCDR to adapt to specific tasks. By conducting extensive experiments on datasets collected from reality, we demonstrate the effectiveness and adaptability of DiffCDR to outperform baseline models on various CDR tasks in both cold-start and warm-start scenarios.
翻訳日:2024-02-06 21:53:43 公開日:2024-02-03
# 対向攻撃に対するオフロード自律走行セグメンテーションのロバスト性評価:データセット中心解析

Evaluating the Robustness of Off-Road Autonomous Driving Segmentation against Adversarial Attacks: A Dataset-Centric analysis ( http://arxiv.org/abs/2402.02154v1 )

ライセンス: Link先を確認
Pankaj Deoli, Rohit Kumar, Axel Vierling, Karsten Berns(参考訳) 本研究では,オフロード自律運転領域における逆入力摂動に対するセグメンテーションモデルの脆弱性について検討する。 一般的な条件での優れた性能にもかかわらず、最先端の分類器は(たとえ)小さな摂動の影響を受けやすいことが多く、最終的には信頼性の高い不正確な予測をもたらす。 従来の研究は、アーキテクチャを変更し、ノイズの多い入力画像でトレーニングすることで、モデルをより堅牢にすることに重点を置いてきたが、敵攻撃におけるデータセットの影響については検討していない。 本研究の目的は、オフロードデータセットにおける非破壊的特徴の影響を調査し、異なるセグメンテーションネットワークアーキテクチャに対する敵攻撃の効果を比較することである。 これを実現するために、ロバストなデータセットは、ロバストな機能のみで構成され、このロバスト化されたデータセット上でネットワークをトレーニングする。 我々は、オフロード自動運転アプリケーションにおける機械学習モデルの堅牢性向上に重要な意味を持つ、我々の研究成果の質的および定量的分析の両方を提示する。 本研究は, セグメント出力のロバスト性を評価することにより, ラフオフロード非構造化環境における自律型ロボットunimog u5023の安全な走行に寄与する。 コードはhttps://github.com/rohtkumar/adversarial_attacks_ on_segmentationで公開されている。

This study investigates the vulnerability of semantic segmentation models to adversarial input perturbations, in the domain of off-road autonomous driving. Despite good performance in generic conditions, the state-of-the-art classifiers are often susceptible to (even) small perturbations, ultimately resulting in inaccurate predictions with high confidence. Prior research has directed their focus on making models more robust by modifying the architecture and training with noisy input images, but has not explored the influence of datasets in adversarial attacks. Our study aims to address this gap by examining the impact of non-robust features in off-road datasets and comparing the effects of adversarial attacks on different segmentation network architectures. To enable this, a robust dataset is created consisting of only robust features and training the networks on this robustified dataset. We present both qualitative and quantitative analysis of our findings, which have important implications on improving the robustness of machine learning models in off-road autonomous driving applications. Additionally, this work contributes to the safe navigation of autonomous robot Unimog U5023 in rough off-road unstructured environments by evaluating the robustness of segmentation outputs. The code is publicly available at https://github.com/rohtkumar/adversarial_attacks_ on_segmentation
翻訳日:2024-02-06 21:53:14 公開日:2024-02-03
# ポジションペーパー:なぜダークメソッドでの銃撃がレコメンダシステムの実践を支配するのか;反ユートピア的思考を捨てようという呼びかけ

Position Paper: Why the Shooting in the Dark Method Dominates Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking ( http://arxiv.org/abs/2402.02152v1 )

ライセンス: Link先を確認
David Rohde(参考訳) applied recommender systems researchは興味深い立場にある。 A/Bテストによってパフォーマンスを測定するための非常に厳格なプロトコルがあるが、テストする‘B’を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ測度をターゲットにしている。 与えられたA/Bテストの成功または失敗は、提案されたプロキシが以前のプロキシよりもパフォーマンスに相関しているかどうかに完全に依存する。 あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しない。 このポジション論文の目的は、この反ユートピア的思考に疑問を呈し、ディープラーニングスタックの非標準的な使用は、実際には報酬最適化の推奨を解き放つ可能性があると主張することである。

Applied recommender systems research is in a curious position. While there is a very rigorous protocol for measuring performance by A/B testing, best practice for finding a `B' to test does not explicitly target performance but rather targets a proxy measure. The success or failure of a given A/B test then depends entirely on if the proposed proxy is better correlated to performance than the previous proxy. No principle exists to identify if one proxy is better than another offline, leaving the practitioners shooting in the dark. The purpose of this position paper is to question this anti-Utopian thinking and argue that a non-standard use of the deep learning stacks actually has the potential to unlock reward optimizing recommendation.
翻訳日:2024-02-06 21:52:51 公開日:2024-02-03
# ハイブリッド分類回帰モデルを用いた地震強度分布のデータ駆動予測

Data-Driven Prediction of Seismic Intensity Distributions Featuring Hybrid Classification-Regression Models ( http://arxiv.org/abs/2402.02150v1 )

ライセンス: Link先を確認
Koyu Mizutani, Haruki Mitarai, Kakeru Miyazaki, Soichiro Kumano, Toshihiko Yamasaki(参考訳) 地震は人類が直面する最も緊急かつ致命的な自然災害の1つである。 地震被害の程度を正確に予測し、潜在的なリスクを評価することは、多くの命を救うのに役立つ。 本研究では,地震パラメータに基づく震度分布の予測が可能な線形回帰モデル(位置,深さ,大きさ)を開発した。 完全にデータ駆動であるため、地理情報なしで強度分布を予測できる。 このデータセットは、1997年から2020年にかけて日本近辺で発生した地震の震度データからなり、特に気象庁から出ているマグニチュード5.0以上の1,857の地震が含まれている。 回帰モデルと分類モデルの両方をトレーニングし、それらを組み合わせてハイブリッドモデルを構築しました。 提案手法は, 相関係数, F1 スコア, MCC を用いて, 一般用地動予測式 (GMPE) より優れていた。 さらに, 従来のGMPEにおける課題として, 異常な震度分布の予測が可能である。

Earthquakes are among the most immediate and deadly natural disasters that humans face. Accurately forecasting the extent of earthquake damage and assessing potential risks can be instrumental in saving numerous lives. In this study, we developed linear regression models capable of predicting seismic intensity distributions based on earthquake parameters: location, depth, and magnitude. Because it is completely data-driven, it can predict intensity distributions without geographical information. The dataset comprises seismic intensity data from earthquakes that occurred in the vicinity of Japan between 1997 and 2020, specifically containing 1,857 instances of earthquakes with a magnitude of 5.0 or greater, sourced from the Japan Meteorological Agency. We trained both regression and classification models and combined them to take advantage of both to create a hybrid model. The proposed model outperformed commonly used Ground Motion Prediction Equations (GMPEs) in terms of the correlation coefficient, F1 score, and MCC. Furthermore, the proposed model can predict even abnormal seismic intensity distributions, a task at conventional GMPEs often struggle.
翻訳日:2024-02-06 21:52:34 公開日:2024-02-03
# 最適後部共分散を用いた逆問題拡散モデルの改善

Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance ( http://arxiv.org/abs/2402.02149v1 )

ライセンス: Link先を確認
Xinyu Peng, Ziyang Zheng, Wenrui Dai, Nuoqian Xiao, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) 最近の拡散モデルは、特定の逆問題を再訓練することなく、ノイズの大きい線形逆問題に対して有望なゼロショット解を提供する。 本稿では,条件付きサンプリングの逆拡散過程に対する条件付き後進平均を近似する観点から,既存のゼロショット法に対する最初の統一的解釈を提案する。 近年の手法は, 希薄な画像に対して等方性ガウス近似を難解な後続分布にすることと同値であり, 等方性後続共分散のハンドクラフト設計にのみ差異があることが判明した。 この知見に触発されて,近年の手法を改善するために,最大確率推定に基づく汎用的なプラグ・アンド・プレイ後方共分散最適化を提案する。 再訓練をせずに最適な後方共分散を実現するために, 逆共分散を伴わない事前学習モデルを活用するための2つのアプローチに基づく一般的な解法を提案する。 実験の結果,提案手法は近年のハイパーパラメータの全体的な性能やロバスト性を大幅に向上させることがわかった。 コードはhttps://github.com/xypeng9903/k-diffusion-inverse-problemsで入手できる。

Recent diffusion models provide a promising zero-shot solution to noisy linear inverse problems without retraining for specific inverse problems. In this paper, we propose the first unified interpretation for existing zero-shot methods from the perspective of approximating the conditional posterior mean for the reverse diffusion process of conditional sampling. We reveal that recent methods are equivalent to making isotropic Gaussian approximations to intractable posterior distributions over clean images given diffused noisy images, with the only difference in the handcrafted design of isotropic posterior covariances. Inspired by this finding, we propose a general plug-and-play posterior covariance optimization based on maximum likelihood estimation to improve recent methods. To achieve optimal posterior covariance without retraining, we provide general solutions based on two approaches specifically designed to leverage pre-trained models with and without reverse covariances. Experimental results demonstrate that the proposed methods significantly enhance the overall performance or robustness to hyperparameters of recent methods. Code is available at https://github.com/xypeng9903/k-diffusion-inverse-problems
翻訳日:2024-02-06 21:52:18 公開日:2024-02-03
# 緊急コンピューティング:階層的強化学習に基づく適応的協調推論手法

Emergency Computing: An Adaptive Collaborative Inference Method Based on Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2402.02146v1 )

ライセンス: Link先を確認
Weiqi Fu, Lianming Xu, Xin Wu, Li Wang, Aiguo Fei(参考訳) 効果的な緊急対応を実現するには,環境情報のタイムリーな取得,シームレスな指令データ送信,迅速な意思決定が不可欠である。 これにより、基本的なインフラがなくても通信やセンシングサービスを提供できる弾力性のある緊急通信専用ネットワークの確立が必要となる。 本稿では,センサ,コミュニケーション,計算,キャッシュ,インテリジェンス(E-SC3I)を備えた緊急ネットワークを提案する。 このフレームワークには、緊急コンピューティング、キャッシュ、統合通信とセンシング、インテリジェンス強化のためのメカニズムが含まれている。 E-SC3Iは、大きなユーザベースへの迅速なアクセス、不安定なリンク上の信頼性の高いデータ転送、変化する環境における動的ネットワーク展開を保証する。 しかし、これらの利点は計算オーバーヘッドを大幅に上回るコストがかかる。 そこで我々は,特に緊急計算に集中し,階層的強化学習に基づく適応型協調推論法(ACIM)を提案する。 実験により,制約のある計算資源と通信資源を用いたAIモデルの高速推論を実現する能力を示す。

In achieving effective emergency response, the timely acquisition of environmental information, seamless command data transmission, and prompt decision-making are crucial. This necessitates the establishment of a resilient emergency communication dedicated network, capable of providing communication and sensing services even in the absence of basic infrastructure. In this paper, we propose an Emergency Network with Sensing, Communication, Computation, Caching, and Intelligence (E-SC3I). The framework incorporates mechanisms for emergency computing, caching, integrated communication and sensing, and intelligence empowerment. E-SC3I ensures rapid access to a large user base, reliable data transmission over unstable links, and dynamic network deployment in a changing environment. However, these advantages come at the cost of significant computation overhead. Therefore, we specifically concentrate on emergency computing and propose an adaptive collaborative inference method (ACIM) based on hierarchical reinforcement learning. Experimental results demonstrate our method's ability to achieve rapid inference of AI models with constrained computational and communication resources.
翻訳日:2024-02-06 21:51:58 公開日:2024-02-03
# 文脈摂動と大規模言語モデルによるニュースプレゼンテーションにおける感情極性低減の分析

Analyzing Sentiment Polarity Reduction in News Presentation through Contextual Perturbation and Large Language Models ( http://arxiv.org/abs/2402.02145v1 )

ライセンス: Link先を確認
Alapan Kuila, Somnath Jena, Sudeshna Sarkar, Partha Pratim Chakrabarti(参考訳) ニュースメディアが世論形成に重要な役割を果たしている現代メディアの世界では、ニューステキストにおける感情操作の問題に対処することが不可欠である。 ニュースライターは、しばしば自身のバイアスと感情言語を注入し、報告の客観性を歪ませる。 本稿では,ニュースコンテンツにおける潜在感情の極性を減らし,この問題に対処する新たなアプローチを提案する。 対人攻撃に基づく文摂動手法とChatGPTを用いたプロンプトベース手法からインスピレーションを得て,文の変換制約を適用し,中核的な意味を保ちながら文の修正を行う。 本研究では,3つの摂動手法,すなわち置き換え,挿入,削除をコンテキスト認識型マスキング言語モデルと組み合わせることで,ビームサーチアルゴリズムを用いて,対象とするニュース側面に対する感情スコアを最大化する。 実験と人体評価は, テキストの類似性, 流布性, 文法的正しさを維持しつつ, 最小限の修正による感情極性低下を実現する上で, これら2つのモデルの有効性を示した。 比較分析は、敵攻撃に基づく摂動法とプロンプトベースの手法の競合性能を確認し、メディアにおけるより客観的なニュース報告と戦闘的感情言語バイアスを促進するための有望な解決策を提供する。

In today's media landscape, where news outlets play a pivotal role in shaping public opinion, it is imperative to address the issue of sentiment manipulation within news text. News writers often inject their own biases and emotional language, which can distort the objectivity of reporting. This paper introduces a novel approach to tackle this problem by reducing the polarity of latent sentiments in news content. Drawing inspiration from adversarial attack-based sentence perturbation techniques and a prompt based method using ChatGPT, we employ transformation constraints to modify sentences while preserving their core semantics. Using three perturbation methods: replacement, insertion, and deletion coupled with a context-aware masked language model, we aim to maximize the desired sentiment score for targeted news aspects through a beam search algorithm. Our experiments and human evaluations demonstrate the effectiveness of these two models in achieving reduced sentiment polarity with minimal modifications while maintaining textual similarity, fluency, and grammatical correctness. Comparative analysis confirms the competitive performance of the adversarial attack based perturbation methods and prompt-based methods, offering a promising solution to foster more objective news reporting and combat emotional language bias in the media.
翻訳日:2024-02-06 21:51:41 公開日:2024-02-03
# ヘイトスピーチ検出のためのplmの臨界学習ダイナミクスの探索

Probing Critical Learning Dynamics of PLMs for Hate Speech Detection ( http://arxiv.org/abs/2402.02144v1 )

ライセンス: Link先を確認
Sarah Masud, Mohammad Aflah Khan, Vikram Goyal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 広く採用されているにもかかわらず、プレトレーニング言語モデル(PLM)の様々な重要な側面がヘイトスピーチ検出におけるパフォーマンスにどのように影響するかは研究されていない。 5つの研究質問から得られた知見と勧告は,plmのヘイトスピーチ検出における使用方法の異なる側面を実証的に調査するための基礎となる。 さまざまなトレーニング済みモデルの比較、シードロバスト性の評価、微調整設定、トレーニング済みデータ収集時間の影響について深く掘り下げた。 本分析では, プレトレーニング中の下流タスクの早期ピーク, より最近のプレトレーニングコーパスの採用によるメリット, 微調整時の特定のレイヤの重要性を明らかにした。 さらに、ドメイン固有モデルの使用に疑問を投げかけ、ヘイトスピーチ検出をベンチマークするための動的データセットの必要性を強調した。

Despite the widespread adoption, there is a lack of research into how various critical aspects of pretrained language models (PLMs) affect their performance in hate speech detection. Through five research questions, our findings and recommendations lay the groundwork for empirically investigating different aspects of PLMs' use in hate speech detection. We deep dive into comparing different pretrained models, evaluating their seed robustness, finetuning settings, and the impact of pretraining data collection time. Our analysis reveals early peaks for downstream tasks during pretraining, the limited benefit of employing a more recent pretraining corpus, and the significance of specific layers during finetuning. We further call into question the use of domain-specific models and highlight the need for dynamic datasets for benchmarking hate speech detection.
翻訳日:2024-02-06 21:51:17 公開日:2024-02-03
# マルチレベルおよび注意誘導トークン化に基づくゼロショットスケッチに基づくリモートセンシング画像検索

Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization ( http://arxiv.org/abs/2402.02141v1 )

ライセンス: Link先を確認
Bo Yang, Chen Wang, Xiaoshuang Ma, Beiping Song and Zhuang Liu(参考訳) リモートセンシングビッグデータの領域では,リモートセンシングデータベースから画像を効果的かつ効率的に取得することが重要な課題である。 手描きのスケッチを検索入力として利用すると、直感的でユーザフレンドリーなアドバンテージが得られるが、スケッチからのマルチレベル機能統合の可能性は未検討のままであり、最適でない検索性能をもたらす。 そこで本研究では, リモートセンシング画像に対するゼロショット, スケッチに基づく検索手法を提案する。 このアプローチでは、クエリスケッチのトークン化にマルチレベルの自己アテンション特徴抽出、候補画像のトークン化に自己アテンション特徴抽出を使用する。 次に、これらの2つのモダリティ間のトークン対応を確立するためにクロスアテンション機構を使用し、スケッチと画像の類似性の計算を容易にする。 提案手法は,既存のスケッチ型リモートセンシング画像検索技術よりも優れた検索精度を示す。 特に、目に見えないカテゴリや新しいリモートセンシングデータを扱う際に、堅牢なゼロショット学習能力と強力な一般化性を示す。 この方法のスケーラビリティは、データベース内のすべての候補画像に対する検索トークンの事前計算によってさらに向上することができる。 クロスモーダルリモートセンシング画像検索におけるマルチレベル・注意誘導トークン化の可能性について考察した。 幅広いアクセシビリティと研究の促進のために、この研究で使われているコードとデータセットをオンラインで公開しました。 コードとデータセットはhttps://github.com/snowstormfly/cross-modal-retrieval-mlagtで入手できる。

Effectively and efficiently retrieving images from remote sensing databases is a critical challenge in the realm of remote sensing big data. Utilizing hand-drawn sketches as retrieval inputs offers intuitive and user-friendly advantages, yet the potential of multi-level feature integration from sketches remains underexplored, leading to suboptimal retrieval performance. To address this gap, our study introduces a novel zero-shot, sketch-based retrieval method for remote sensing images, leveraging multi-level, attention-guided tokenization. This approach starts by employing multi-level self-attention feature extraction to tokenize the query sketches, as well as self-attention feature extraction to tokenize the candidate images. It then employs cross-attention mechanisms to establish token correspondence between these two modalities, facilitating the computation of sketch-to-image similarity. Our method demonstrates superior retrieval accuracy over existing sketch-based remote sensing image retrieval techniques, as evidenced by tests on four datasets. Notably, it also exhibits robust zero-shot learning capabilities and strong generalizability in handling unseen categories and novel remote sensing data. The method's scalability can be further enhanced by the pre-calculation of retrieval tokens for all candidate images in a database. This research underscores the significant potential of multi-level, attention-guided tokenization in cross-modal remote sensing image retrieval. For broader accessibility and research facilitation, we have made the code and dataset used in this study publicly available online. Code and dataset are available at https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT.
翻訳日:2024-02-06 21:51:02 公開日:2024-02-03
# Generative Visual Compression: レビュー

Generative Visual Compression: A Review ( http://arxiv.org/abs/2402.02140v1 )

ライセンス: Link先を確認
Bolin Chen, Shanzhi Yin, Peilin Chen, Shiqi Wang and Yan Ye(参考訳) aigc(artificial intelligence generated content)は、デジタルコンテンツの獲得と、従来のコーデックに比べて競争力のあるパフォーマンス向上と多様な機能へのビジュアル圧縮の進歩を促す新しい技術的革命を導いている。 本稿では, 生成的視覚圧縮の最近の進歩を概観し, 超低ビットレート通信, ユーザ指定再構成・フィルタリング, インテリジェントマシン解析における将来的な応用について述べる。 特に,深層生成モデルを用いたビジュアルデータ圧縮手法を概観し,コンパクト表現と高忠実度再構築が生成手法によって実現可能かどうかを概説する。 さらに,機械ビジョンとインテリジェント解析のための関連する生成圧縮技術を一般化する。 最後に,生成的視覚圧縮技術の基本課題と今後の研究方向性について考察する。

Artificial Intelligence Generated Content (AIGC) is leading a new technical revolution for the acquisition of digital content and impelling the progress of visual compression towards competitive performance gains and diverse functionalities over traditional codecs. This paper provides a thorough review on the recent advances of generative visual compression, illustrating great potentials and promising applications in ultra-low bitrate communication, user-specified reconstruction/filtering, and intelligent machine analysis. In particular, we review the visual data compression methodologies with deep generative models, and summarize how compact representation and high-fidelity reconstruction could be actualized via generative techniques. In addition, we generalize related generative compression technologies for machine vision and intelligent analytics. Finally, we discuss the fundamental challenges on generative visual compression techniques and envision their future research directions.
翻訳日:2024-02-06 21:50:35 公開日:2024-02-03
# イラン・テヘランのMODIS MAIAC AODからのPM2.5の高分解能マッピングにDeep Ensemble Forestを用いた

Using Deep Ensemble Forest for High Resolution Mapping of PM2.5 from MODIS MAIAC AOD in Tehran, Iran ( http://arxiv.org/abs/2402.02139v1 )

ライセンス: Link先を確認
Hossein Bagheri(参考訳) テヘラン市上空のpm2.5濃度の高分解能マッピングは、多数の汚染源の複雑な挙動と地上空気質モニタリングステーションの不足により困難である。 あるいは、高分解能衛星エアロゾル光学深度(AOD)データをPM2.5の高分解能マッピングに用いることもできる。 この目的のために、様々なデータ駆動手法が文献に使われている。 近年,AODデータからPM2.5を推定する深層学習手法が実証されている。 しかし、これらの手法は衛星AODデータからPM2.5を推定する問題の解決にいくつかの弱点がある。 本研究では,AODデータからPM2.5濃度を推定する深層アンサンブル林法の可能性を検討した。 その結果,R2=0.74の深層アンサンブル林法は,ランダム林法(R2=0.68)と同様に,深層学習法(R2=0.67)よりもPM2.5推定の精度が高いことがわかった。 さらに,深層アンサンブル森林アルゴリズムを用いたPM2.5の推定値と地上データを用いてPM2.5の高分解能マップを作成した。 生産されたPM2.5マップの評価により,テヘラン市におけるPM2.5の変動をモデル化するための深いアンサンブル林の性能が示された。

High resolution mapping of PM2.5 concentration over Tehran city is challenging because of the complicated behavior of numerous sources of pollution and the insufficient number of ground air quality monitoring stations. Alternatively, high resolution satellite Aerosol Optical Depth (AOD) data can be employed for high resolution mapping of PM2.5. For this purpose, different data-driven methods have been used in the literature. Recently, deep learning methods have demonstrated their ability to estimate PM2.5 from AOD data. However, these methods have several weaknesses in solving the problem of estimating PM2.5 from satellite AOD data. In this paper, the potential of the deep ensemble forest method for estimating the PM2.5 concentration from AOD data was evaluated. The results showed that the deep ensemble forest method with R2 = 0.74 gives a higher accuracy of PM2.5 estimation than deep learning methods (R2 = 0.67) as well as classic data-driven methods such as random forest (R2 = 0.68). Additionally, the estimated values of PM2.5 using the deep ensemble forest algorithm were used along with ground data to generate a high resolution map of PM2.5. Evaluation of the produced PM2.5 map revealed the good performance of the deep ensemble forest for modeling the variation of PM2.5 in the city of Tehran.
翻訳日:2024-02-06 21:50:21 公開日:2024-02-03
# LLMのモラル判断と推論能力は言語によって変化するか? 多言語定義問題テストを用いた一検討

Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test ( http://arxiv.org/abs/2402.02135v1 )

ライセンス: Link先を確認
Aditi Khandelwal, Utkarsh Agarwal, Kumar Tanmay, Monojit Choudhury(参考訳) 本稿では,Large Language Models (LLM) による言語間のモラル判断とモラル推論能力について,Defining Issues Test を用いて検討する。 道徳的判断は、その質問が問われる言語に依存することはよく知られた事実である。 我々は、英語以外の5つの言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張し、3つのLLM(ChatGPT、GPT-4、Llama2Chat-70B)を探索します。 本研究は, ヒンディー語, スワヒリ語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は有意に劣っているが, 後者の4言語のパフォーマンスには明確な傾向はないことを示している。 道徳的判断は言語によって大きく異なる。

This paper explores the moral judgment and moral reasoning abilities exhibited by Large Language Models (LLMs) across languages through the Defining Issues Test. It is a well known fact that moral judgment depends on the language in which the question is asked. We extend the work of beyond English, to 5 new languages (Chinese, Hindi, Russian, Spanish and Swahili), and probe three LLMs -- ChatGPT, GPT-4 and Llama2Chat-70B -- that shows substantial multilingual text processing and generation abilities. Our study shows that the moral reasoning ability for all models, as indicated by the post-conventional score, is substantially inferior for Hindi and Swahili, compared to Spanish, Russian, Chinese and English, while there is no clear trend for the performance of the latter four languages. The moral judgments too vary considerably by the language.
翻訳日:2024-02-06 21:49:59 公開日:2024-02-03
# マルチモーダル大言語モデルにおけるグラフ推論のためのレンダリンググラフ

Rendering Graphs for Graph Reasoning in Multimodal Large Language Models ( http://arxiv.org/abs/2402.02130v1 )

ライセンス: Link先を確認
Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang(参考訳) 大規模言語モデル(LLM)は、ロボット計画、知識グラフ補完、常識推論など、グラフ構造を扱う様々なタスクにますます使われている。 LLMは、グラフ情報をテキスト形式で理解することができるが、そのリッチな視覚的モダリティは、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である。 グラフ構造を視覚的イメージ(すなわちビジュアルグラフ)として表現する潜在的な利点と能力はまだ探索されていない。 本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,各サンプルをタプル(グラフ,画像,テキスト記述)とする新しいベンチマークGITQAを提案する。 我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。 グラフ推論タスクの結果から,テキスト情報と視覚情報の組み合わせは,1つのモダリティのみを使用するよりも優れていた。 さらに、トレーニングセットに微調整されたLLaVA-7B/13Bモデルは、クローズドソースモデルGPT-4(V)よりも精度が高い。 また,グラフ推論における拡張の効果についても検討した。

Large Language Models (LLMs) are increasingly used for various tasks with graph structures, such as robotic planning, knowledge graph completion, and common-sense reasoning. Though LLMs can comprehend graph information in a textual format, they overlook the rich visual modality, which is an intuitive way for humans to comprehend structural information and conduct graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., visual graph) is still unexplored. In this paper, we take the first step in incorporating visual information into graph reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple (graph, image, textual description). We conduct extensive experiments on the GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph reasoning tasks show that combining textual and visual information together performs better than using one modality alone. Moreover, the LLaVA-7B/13B models finetuned on the training set achieve higher accuracy than the closed-source model GPT-4(V). We also study the effects of augmentations in graph reasoning.
翻訳日:2024-02-06 21:49:39 公開日:2024-02-03
# 近距離中性原子プロセッサのアルゴリズム性能のベンチマーク

Benchmarking the algorithmic performance of near-term neutral atom processors ( http://arxiv.org/abs/2402.02127v1 )

ライセンス: Link先を確認
K. McInroy, N. Pearson and J. D. Pritchard(参考訳) ニュートラル原子量子プロセッサは、高忠実度および並列ゲート演算の最近の実証や、物理および論理量子ビット符号化の両方を用いた量子アルゴリズムの初期実装など、スケーラブルな量子コンピューティングへの実行可能な経路を提供する。 本稿では,リドバーグ原子近傍量子コンピュータにおけるデバイスシミュレーションによるアルゴリズム性能の評価を行い,競合するアーキテクチャとの比較について述べる。 我々は,量子ビット接続とマルチキュービットゲートを動的に更新する機能を活用し,3つの異なる量子アルゴリズム関連テストを検討する。 現実的なパラメータを持つ9量子ビットデバイスに対して、$\mathbf{\mathit{V_{Q}}=2^{9}}$の量子体積を計算する。 また,損失補正のない9つのデータキュービットと1つのアンシラキュービットに対して0.95以上の成功確率を持つベルンシュタイン・ヴァジラニアルゴリズムと,ネイティブマルチキュービット$\mathbf{CCZ}$ゲートを用いた6つのデータキュービットと3つのアンシラキュービットを用いたアルゴリズムの実装に対して,損失補正成功確率0.97のグロバー探索アルゴリズムの両方を高速に実装した。 以上の結果から,Rydberg atom プロセッサは,さらなる拡張可能性に支えられ,有用な量子計算への道を開くことができる,競争の激しい短期プラットフォームであることが示唆された。

Neutral atom quantum processors provide a viable route to scalable quantum computing, with recent demonstrations of high-fidelity and parallel gate operations and initial implementation of quantum algorithms using both physical and logical qubit encodings. In this work we present a characterization of the algorithmic performance of near term Rydberg atom quantum computers through device simulation to enable comparison against competing architectures. We consider three different quantum algorithm related tests, exploiting the ability to dynamically update qubit connectivity and multi-qubit gates. We calculate a quantum volume of $\mathbf{\mathit{V_{Q}}=2^{9}}$ for 9 qubit devices with realistic parameters, which is the maximum achievable value for this device size and establishes a lower bound for larger systems. We also simulate highly efficient implementations of both the Bernstein-Vazirani algorithm with >0.95 success probability for 9 data qubits and 1 ancilla qubit without loss correction, and Grover's search algorithm with a loss-corrected success probability of 0.97 for an implementation of the algorithm using 6 data qubits and 3 ancilla qubits using native multi-qubit $\mathbf{CCZ}$ gates. Our results indicate Rydberg atom processors are a highly competitive near-term platform which, bolstered by the potential for further scalability, can pave the way toward useful quantum computation.
翻訳日:2024-02-06 21:49:21 公開日:2024-02-03
# 非可換多項式最適化のための上界階層

Upper bound hierarchies for noncommutative polynomial optimization ( http://arxiv.org/abs/2402.02126v1 )

ライセンス: Link先を確認
Igor Klep and Victor Magron and Ga\"el Mass\'e and Jurij Vol\v{c}i\v{c}(参考訳) この研究は、有限個の非可換多項式不等式制約を受ける非可換多項式の固有値の最小化に焦点を当てる。 Helton-McCullough Positivstellensatz に基づいて、ラッサールの正方形階層のモーメントサムの非可換な類似は、制約集合上の穏やかな仮定の下で、最小固有値に収束する下界の列を提供する。 各下限は半定義のプログラムを解いて得られる。 上界の相補的収束階層を導出する。 これらはコンパクト集合上の多項式を最小化するためのラッサールによる上界階層の非可換類である。 各上限は一般化固有値問題を解くことで得られる。

This work focuses on minimizing the eigenvalue of a noncommutative polynomial subject to a finite number of noncommutative polynomial inequality constraints. Based on the Helton-McCullough Positivstellensatz, the noncommutative analog of Lasserre's moment-sum of squares hierarchy provides a sequence of lower bounds converging to the minimal eigenvalue, under mild assumptions on the constraint set. Each lower bound can be obtained by solving a semidefinite program. We derive complementary converging hierarchies of upper bounds. They are noncommutative analogues of the upper bound hierarchies due to Lasserre for minimizing polynomials over compact sets. Each upper bound can be obtained by solving a generalized eigenvalue problem.
翻訳日:2024-02-06 21:48:46 公開日:2024-02-03
# 2次元における無限またはゼロの散乱長を持つ粒子の3体散乱領域

Three-body scattering area for particles with infinite or zero scattering length in two dimensions ( http://arxiv.org/abs/2402.02202v1 )

ライセンス: Link先を確認
Junjie Liang and Shina Tan(参考訳) 有限範囲相互作用と等しい質量を持つ3粒子の波動関数の漸近展開と、ゼロエネルギーとゼロ軌道角運動量で共役する無限あるいはゼロの2次元散乱長を導出し、そこから3体パラメータ$D$が定義される。 D$の次元は長さ2乗であり、D$3体散乱領域と呼ぶ。 これらの相互作用を持つゼロ温度希薄ボース気体の粒子あたりの基底状態エネルギーはおよそ$\frac{\hbar^2 D }{6m}\rho^2$であり、ここでは$\rho$はボソンの数密度、$m$はそれぞれのボソンの質量、$\hbar$はプランク定数が$2\pi$である。 そのようなボースガスは熱力学的極限において$D\geq 0$で安定であり、ボソンの数が$N_{cr}\approx 3.6413 \sqrt {\frac{\hbar}{m\omega |D|}}$より小さい場合、ハーモニックトラップにおいて$D<0$でメタスタブルとなる。 2体相互作用が境界状態をサポートする場合、通常$d$は負の虚部を取得し、この虚部とペア-ボーソン生成過程の振幅の関係を見出す。 我々は、多元ボソン系の3体組換え率定数の式を、虚部が$d$の項で導出する。

We derive the asymptotic expansions of the wave function of three particles having equal mass with finite-range interactions and infinite or zero two-dimensional scattering length colliding at zero energy and zero orbital angular momentum, from which a three-body parameter $D$ is defined. The dimension of $D$ is length squared, and we call $D$ three-body scattering area. We find that the ground state energy per particle of a zero-temperature dilute Bose gas with these interactions is approximately $\frac{\hbar^2 D }{6m}\rho^2$, where $\rho$ is the number density of the bosons, $m$ is the mass of each boson, and $\hbar$ is Planck's constant over $2\pi$. Such a Bose gas is stable at $D\geq 0$ in the thermodynamic limit, and metastable at $D<0$ in the harmonic trap if the number of bosons is less than $N_{cr}\approx 3.6413 \sqrt{\frac{\hbar}{m\omega |D|}}$, where $\omega$ is the angular frequency of the harmonic trap. If the two-body interaction supports bound states, $D$ typically acquires a negative imaginary part, and we find the relation between this imaginary part and the amplitudes of the pair-boson production processes. We derive a formula for the three-body recombination rate constant of the many-boson system in terms of the imaginary part of $D$.
翻訳日:2024-02-06 21:41:21 公開日:2024-02-03
# 重六角格子の量子誤差補正戦略の比較研究

Comparative study of quantum error correction strategies for the heavy-hexagonal lattice ( http://arxiv.org/abs/2402.02185v1 )

ライセンス: Link先を確認
C\'esar Benito, Esperanza L\'opez, Borja Peropadre, Alejandro Bermudez(参考訳) トポロジカルな量子誤差補正は、実際の問題に対する量子アルゴリズムの実行を可能にする数兆のゲートを持つ回路をターゲットとする量子コンピュータのスケーリングロードマップにおけるマイルストーンである。 正方格子表面コードは、必要なエラー率と小さな局所的な接続性の両方において、現在のデバイスでより穏やかな要件を課すため、この課題に対処するための作業馬となっている。 しかし、一部のプラットフォームでは、ハードウェアレベルでのゲートエラーを最小限に抑えるために接続性はさらに低く保たれており、直接実装できるエラー訂正符号は制限されている。 本研究では、現在のIBM超伝導量子コンピュータのアーキテクチャである重六角格子のこの制限を克服するための戦略を比較検討する。 表面コードをヘキサゴナル格子に効率的に埋め込む方法と,サブシステムタイプやフロケットコードなど,このアーキテクチャに自然に適合した接続要件を持つコードの利用について検討する。 複雑性が増大するノイズモデルを用いて、エラー閾値とキュービットフットプリントの観点から、IBMデバイスにおけるこれらの戦略の性能を評価する。 最適化されたSWAPベースの表面コードの埋め込みは、量子誤り訂正の利点の短期的な実証に向けた最も有望な戦略である。

Topological quantum error correction is a milestone in the scaling roadmap of quantum computers, which targets circuits with trillions of gates that would allow running quantum algorithms for real-world problems. The square-lattice surface code has become the workhorse to address this challenge, as it poses milder requirements on current devices both in terms of required error rates and small local connectivities. In some platforms, however, the connectivities are kept even lower in order to minimise gate errors at the hardware level, which limits the error correcting codes that can be directly implemented on them. In this work, we make a comparative study of possible strategies to overcome this limitation for the heavy-hexagonal lattice, the architecture of current IBM superconducting quantum computers. We explore two complementary strategies: the search for an efficient embedding of the surface code into the heavy-hexagonal lattice, as well as the use of codes whose connectivity requirements are naturally tailored to this architecture, such as subsystem-type and Floquet codes. Using noise models of increased complexity, we assess the performance of these strategies for IBM devices in terms of their error thresholds and qubit footprints. An optimized SWAP-based embedding of the surface code is found to be the most promising strategy towards a near-term demonstration of quantum error correction advantage.
翻訳日:2024-02-06 21:40:28 公開日:2024-02-03
# 完全畳み込みニューラルネットワークを用いた非固定長音声の感度解析

Sentiment analysis in non-fixed length audios using a Fully Convolutional Neural Network ( http://arxiv.org/abs/2402.02184v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, H\'ector Alaiz-Moret\'on, Jos\'e Alberto Ben\'itez-Andrades, Isa\'ias Garc\'ia-Rodr\'iguez, Oscar Garc\'ia-Olalla and Carmen Benavides(参考訳) そこで本研究では,任意の長さの音声を事前に修正することなく受け付けることができる感情分析手法を提案する。 音声記述法としてMel SpectrogramとMel Frequency Cepstral Coefficientsを用い,分類器として完全畳み込みニューラルネットワークアーキテクチャを提案する。 結果は、EMODB、RAVDESS、TESSの3つのよく知られたデータセットを使用して検証されている。 得られた結果は有望であり、最先端の手法を上回った。 また,提案手法は任意の大きさの音声を受信できるため,感情分析をほぼリアルタイムで行うことが可能であり,コールセンター,医療相談,金融ブローカーなど幅広い分野において非常に興味深い。

In this work, a sentiment analysis method that is capable of accepting audio of any length, without being fixed a priori, is proposed. Mel spectrogram and Mel Frequency Cepstral Coefficients are used as audio description methods and a Fully Convolutional Neural Network architecture is proposed as a classifier. The results have been validated using three well known datasets: EMODB, RAVDESS, and TESS. The results obtained were promising, outperforming the state-of-the-art methods. Also, thanks to the fact that the proposed method admits audios of any size, it allows a sentiment analysis to be made in near real time, which is very interesting for a wide range of fields such as call centers, medical consultations, or financial brokers.
翻訳日:2024-02-06 21:40:01 公開日:2024-02-03
# 畳み込みニューラルネットワークと変分オートエンコーダを用いた非バランスデータの呼吸病理の検出

Detecting Respiratory Pathologies Using Convolutional Neural Networks and Variational Autoencoders for Unbalancing Data ( http://arxiv.org/abs/2402.02183v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, Jos\'e Alberto Ben\'itez-Andrades, Isa\'ias Garc\'ia-Rodr\'iguez, Carmen Benavides and H\'ector Alaiz-Moret\'on(参考訳) 本研究の目的は呼吸音による病理の検出である。 ICBHI(International Conference on Biomedical and Health Informatics)ベンチマークが使用された。 このデータセットは、920の音声で構成されており、うち810は慢性疾患、75は非慢性疾患、35は健康な個人である。 データセットのサンプルの88%以上が同じクラス(Chronic)のものであるため、データセットクラスが不均衡であると判断した後、新しいラベル付きデータやその他のよく知られたオーバーサンプリングテクニックを生成するために変分畳み込みオートコーダが提案された。 前処理が完了すると、CNN(Convolutional Neural Network)を使用して呼吸音を健康、慢性、非慢性の病気に分類した。 さらに, URTI, COPD, Bronchiectasis, Pneumonia, Bronchiolitisの2種類の病型を鑑別するために, より困難な分類を行った。 その結果,3ラベル分類では0.993 F-Score,6クラス分類では0.990 F-Scoreとなった。

The aim of this paper was the detection of pathologies through respiratory sounds. The ICBHI (International Conference on Biomedical and Health Informatics) Benchmark was used. This dataset is composed of 920 sounds of which 810 are of chronic diseases, 75 of non-chronic diseases and only 35 of healthy individuals. As more than 88% of the samples of the dataset are from the same class (Chronic), the use of a Variational Convolutional Autoencoder was proposed to generate new labeled data and other well known oversampling techniques after determining that the dataset classes are unbalanced. Once the preprocessing step was carried out, a Convolutional Neural Network (CNN) was used to classify the respiratory sounds into healthy, chronic, and non-chronic disease. In addition, we carried out a more challenging classification trying to distinguish between the different types of pathologies or healthy: URTI, COPD, Bronchiectasis, Pneumonia, and Bronchiolitis. We achieved results up to 0.993 F-Score in the three-label classification and 0.990 F-Score in the more challenging six-class classification.
翻訳日:2024-02-06 21:39:47 公開日:2024-02-03
# ネットワーク分析におけるオントロジーに基づくマルチドメインモデル:実験的検証とケーススタディ

An Ontology-Based multi-domain model in Social Network Analysis: Experimental validation and case study ( http://arxiv.org/abs/2402.02181v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Isa\'ias Garc\'ia-Rodr\'iguez, Carmen Benavides, H\'ector Al\'aiz-Moret\'on and Jos\'e Emilio Labra Gayo(参考訳) 社会的ネットワーク理論と分析手法の使用は、近年、公衆衛生を含む様々な分野に応用されている。 ソーシャルネットワーク分析(SNA)を実施するための完全な手順は、ソーシャルネットワーク分析の専門家がミスを犯す可能性のある一連のステップを必要とする時間を要するタスクである。 本研究では,SNAの専門家が得られるのと同じ結論を得ることなく,データを自動的に収集し,異なる領域で異なるソーシャルネットワーク分析を行うことができる多分野知識モデルを提案する。 モデルはOntoSNAQAと呼ばれるオントロジーで表現され、それは、人、アンケート、ソーシャルネットワーク分析の領域を表すクラス、プロパティ、ルールで構成されている。 オントロジー自体に加えて、SWRLとSPARQLクエリによって異なるルールが表現される。 OntoSNAQAを用いて知識ベースシステムを作成し,本手法の利点を示すために実ケーススタディに適用した。 最後に、モデルを用いて得られたSNA分析の結果を、最も広く使われているSNAアプリケーション(UCINET、Pajek、Cytoscape、Gephi)から得られたものと比較し、モデルの妥当性を検証した。

The use of social network theory and methods of analysis have been applied to different domains in recent years, including public health. The complete procedure for carrying out a social network analysis (SNA) is a time-consuming task that entails a series of steps in which the expert in social network analysis could make mistakes. This research presents a multi-domain knowledge model capable of automatically gathering data and carrying out different social network analyses in different domains, without errors and obtaining the same conclusions that an expert in SNA would obtain. The model is represented in an ontology called OntoSNAQA, which is made up of classes, properties and rules representing the domains of People, Questionnaires and Social Network Analysis. Besides the ontology itself, different rules are represented by SWRL and SPARQL queries. A Knowledge Based System was created using OntoSNAQA and applied to a real case study in order to show the advantages of the approach. Finally, the results of an SNA analysis obtained through the model were compared to those obtained from some of the most widely used SNA applications: UCINET, Pajek, Cytoscape and Gephi, to test and confirm the validity of the model.
翻訳日:2024-02-06 21:39:28 公開日:2024-02-03
# エビデンスパターン検索による知識グラフに対する複雑な質問応答の強化

Enhancing Complex Question Answering over Knowledge Graphs through Evidence Pattern Retrieval ( http://arxiv.org/abs/2402.02175v1 )

ライセンス: Link先を確認
Wentao Ding, Jinmao Li, Liangchuan Luo, Yuzhong Qu(参考訳) KGQAのための情報検索(IR)手法は,サブグラフ抽出と解答推論の2段階からなる。 現在の部分グラフ抽出法は証拠事実間の構造的依存関係の重要性を過小評価している。 部分グラフ抽出時の構造的依存関係を明示的にモデル化するEvidence Pattern Retrieval (EPR)を提案する。 資源対の原子隣接パターンをインデックス化してEPRを実装する。 そこで,資源対が生成する原子パターンを高密度に検索する手法を提案する。 次に、それらの組み合わせを列挙して、候補エビデンスパターンを構築します。 これらの証拠パターンはニューラルモデルを用いてスコア付けされ、最善の証拠パターンが選択され、下流の回答推論のためのサブグラフを抽出する。 実験の結果, IR-KGQA手法のF1スコアは複雑WebQuestionsで10ポイント以上向上し, WebQuestionsSP上での競争性能が向上した。

Information retrieval (IR) methods for KGQA consist of two stages: subgraph extraction and answer reasoning. We argue current subgraph extraction methods underestimate the importance of structural dependencies among evidence facts. We propose Evidence Pattern Retrieval (EPR) to explicitly model the structural dependencies during subgraph extraction. We implement EPR by indexing the atomic adjacency pattern of resource pairs. Given a question, we perform dense retrieval to obtain atomic patterns formed by resource pairs. We then enumerate their combinations to construct candidate evidence patterns. These evidence patterns are scored using a neural model, and the best one is selected to extract a subgraph for downstream answer reasoning. Experimental results demonstrate that the EPR-based approach has significantly improved the F1 scores of IR-KGQA methods by over 10 points on ComplexWebQuestions and achieves competitive performance on WebQuestionsSP.
翻訳日:2024-02-06 21:39:09 公開日:2024-02-03
# ソフトウェア工学のための協調エージェント

Collaborative Agents for Software Engineering ( http://arxiv.org/abs/2402.02172v1 )

ライセンス: Link先を確認
Daniel Tang and Zhenghan Chen and Kisub Kim and Yewei Song and Haoye Tian and Saad Ezzini and Yongfeng Huang and Jacques Klein Tegawende F. Bissyande(参考訳) コードレビューは協調的なプロセスであり、ソフトウェアの全体的な品質と信頼性を保証することを目的としています。 これは大きなメリットを提供するが、組織におけるコードレビューの実装は、自動化をアピールするいくつかの課題に直面している。 自動化されたコードレビューツールが開発されてからしばらく経ち、新しいaiモデルの採用によって改善されている。 残念なことに、既存のメソッドは不足している。彼らはしばしば単一の入出力生成モデルをターゲットにしており、様々な視点を考慮したコードレビューのコラボレーションインタラクションをシミュレートできない。 本稿では,コードレビューのための新しいマルチエージェントシステムであるCodeAgentを導入することにより,コードレビュー自動化の最先端技術について述べる。 基本的には、CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に関連があることを保証するために設計された監督エージェントであるQA-Checker(`Question-Answer Checkingの略)によって運営されている。 codeagentは自律的で、マルチエージェントで、大きな言語モデル駆動です。 コードエージェントの有効性を実証するために,様々なタスクにおいてその能力を評価する実験を行った。 1)コード変更とコミットメッセージの不一致の検出。 2【コミットによる脆弱性導入の検出】 3) コードスタイルの遵守の検証。 私たちのウェブサイトは \url{https://code-agent-new.vercel.app/index.html} でアクセスできます。

Code review is a heavily collaborative process, which aims at ensuring the overall quality and reliability of software. While it provides massive benefits, the implementation of code review in an organization faces several challenges that make its automation appealing. Automated code review tools have been around for a while and are now improving thanks to the adoption of novel AI models, which help can learn about standard practices and systematically check that the reviewed code adheres to them. Unfortunately, existing methods fall short: they often target a single input-output generative model, which cannot simulate the collaboration interactions in code review to account for various perspectives; they are also sub-performing on various critical code review sub-tasks. In this paper, we advance the state of the art in code review automation by introducing CodeAgent, a novel multi-agent-based system for code review. Fundamentally, CodeAgent is steered by QA-Checker (short for ``Question-Answer Checking"), a supervision agent, designed specifically to ensure that all agents' contributions remain relevant to the initial review question. CodeAgent is autonomous, multi-agent, and Large language model-driven. To demonstrate the effectiveness of CodeAgent, we performed experiments to assess its capabilities in various tasks including 1) detection of inconsistencies between code changes and commit messages, 2) detection of vulnerability introduction by commits, and 3) validation of adherence to code style. Our website is accessed in \url{https://code-agent-new.vercel.app/index.html}.
翻訳日:2024-02-06 21:38:55 公開日:2024-02-03
# 抽象化最適化によるSlate Bandit Policiesのオフライン評価

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction ( http://arxiv.org/abs/2402.02171v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Masahiro Nomura, Yuta Saito(参考訳) 政策がスレートとして知られる多次元行動を選択する場合のスレート・コンテクスト・バンドイット問題におけるオフ・ポリティィ・アセスメント(OPE)について検討する。 この問題は、リコメンデータシステム、検索エンジン、マーケティング、医療アプリケーションに広まっているが、典型的な逆不均衡スコアリング(IPS)推定器は、大きなアクション空間のためにかなりのばらつきに悩まされており、有効なOPEが大きな課題となっている。 Pseudo Inverse (PI) 推定器は、報酬関数の線形性を仮定することで分散問題を緩和するために導入されているが、この仮定は観測データから検証が困難であり、しばしば実質的に違反されるため、かなりのバイアスをもたらす。 従来の推定器の限界に対処するため,Latent IPS (LIPS) と呼ばれる,低次元スレート抽象空間における重要重みを定義し,データ駆動方式でLPPSのバイアスと分散を最小化するためにスレート抽象化を最適化する新しい推定器を開発した。 これにより、LIPSは線形性のような報酬関数構造に制限的な仮定を課すことなくIPSの分散を大幅に低減することができる。 経験的評価により、LIPSは既存の推定器、特に非線形報酬や大きなスレート空間のシナリオにおいて、かなり優れることを示した。

We study off-policy evaluation (OPE) in the problem of slate contextual bandits where a policy selects multi-dimensional actions known as slates. This problem is widespread in recommender systems, search engines, marketing, to medical applications, however, the typical Inverse Propensity Scoring (IPS) estimator suffers from substantial variance due to large action spaces, making effective OPE a significant challenge. The PseudoInverse (PI) estimator has been introduced to mitigate the variance issue by assuming linearity in the reward function, but this can result in significant bias as this assumption is hard-to-verify from observed data and is often substantially violated. To address the limitations of previous estimators, we develop a novel estimator for OPE of slate bandits, called Latent IPS (LIPS), which defines importance weights in a low-dimensional slate abstraction space where we optimize slate abstractions to minimize the bias and variance of LIPS in a data-driven way. By doing so, LIPS can substantially reduce the variance of IPS without imposing restrictive assumptions on the reward function structure like linearity. Through empirical evaluation, we demonstrate that LIPS substantially outperforms existing estimators, particularly in scenarios with non-linear rewards and large slate spaces.
翻訳日:2024-02-06 21:38:31 公開日:2024-02-03
# 線形および非線形ディラックデルタ相互作用による高調波振動子電位の摂動とボース・アインシュタイン凝縮への応用

The Harmonic Oscillator Potential Perturbed by a Combination of Linear and Non-linear Dirac Delta Interactions with Application to Bose-Einstein Condensation ( http://arxiv.org/abs/2402.02169v1 )

ライセンス: Link先を確認
Cenk Aky\"uz, Fatih Erman, Haydar Uncu(参考訳) 本稿では, 非線形項を$\delta(x) |\psi(x)|^2 \psi(x)$ に比例する, $\delta$ ポテンシャルで摂動する調和振動子ポテンシャルに対するschr\"{o}dinger方程式の1次元非線形バージョンの境界状態解析について検討する。 境界状態波動関数は明示的に発見され、系の有界エネルギーは暗黙の方程式の解によって代数的に決定される。 次に, このモデルを用いて, 二重ポテンシャルを持つハーモニックトラップ内のボース気体のボース・アインシュタイン凝縮を行う。 ボース気体の多体相互作用をschr\"{o}dinger方程式の非線形項により効果的に記述できることを示す。 そこで, 本システムの臨界温度, 凝縮分数, 密度分布を数値的に検討した。

In this paper, we study the bound state analysis of a one dimensional nonlinear version of the Schr\"{o}dinger equation for the harmonic oscillator potential perturbed by a $\delta$ potential, where the nonlinear term is taken to be proportional to $\delta(x) |\psi(x)|^2 \psi(x)$. The bound state wave functions are explicitly found and the bound state energy of the system is algebraically determined by the solution of an implicit equation. Then, we apply this model to the Bose-Einstein condensation of a Bose gas in a harmonic trap with a dimple potential. We propose that the many-body interactions of the Bose gas can be effectively described by the nonlinear term in the Schr\"{o}dinger equation. Then, we investigate the critical temperature, the condensate fraction, and the density profile of this system numerically.
翻訳日:2024-02-06 21:38:04 公開日:2024-02-03
# クロスドメイン動的リンク予測のための1つのグラフモデル

One Graph Model for Cross-domain Dynamic Link Prediction ( http://arxiv.org/abs/2402.02168v1 )

ライセンス: Link先を確認
Xuanwen Huang, Wei Chow, Yang Wang, Ziwei Chai, Chunping Wang, Lei Chen, Yang Yang(参考訳) 本稿では,クロスドメインリンク予測のための動的グラフモデル dyexpert を提案する。 歴史的な進化過程を明示的にモデル化し、特定の下流グラフの進化パターンを学習し、パターン固有のリンク予測を行うことができる。 DyExpertはデコードのみのトランスフォーマーを採用し、進化モデリングとリンク予測の両方を統合した \textit{conditioned link generation} による効率よく並列トレーニングと推論を行うことができる。 DyExpertは6Mの動的エッジを含む様々な領域にわたる広範な動的グラフによって訓練されている。 8つの訓練されていないグラフに対する大規模な実験は、DyExpertがクロスドメインリンク予測において最先端のパフォーマンスを達成することを示す。 同じ設定の高度なベースラインと比較して、DyExpertは平均して8つのグラフの平均精度を11.40%向上させる。 さらに印象的なことに、6つの未学習グラフ上の8つの高度なベースラインの完全な教師付きパフォーマンスを上回っている。

This work proposes DyExpert, a dynamic graph model for cross-domain link prediction. It can explicitly model historical evolving processes to learn the evolution pattern of a specific downstream graph and subsequently make pattern-specific link predictions. DyExpert adopts a decode-only transformer and is capable of efficiently parallel training and inference by \textit{conditioned link generation} that integrates both evolution modeling and link prediction. DyExpert is trained by extensive dynamic graphs across diverse domains, comprising 6M dynamic edges. Extensive experiments on eight untrained graphs demonstrate that DyExpert achieves state-of-the-art performance in cross-domain link prediction. Compared to the advanced baseline under the same setting, DyExpert achieves an average of 11.40% improvement Average Precision across eight graphs. More impressive, it surpasses the fully supervised performance of 8 advanced baselines on 6 untrained graphs.
翻訳日:2024-02-06 21:37:46 公開日:2024-02-03
# Vi(E)va LLM! 生成AIに基づく可視化の評価と解釈のための概念スタック

Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations ( http://arxiv.org/abs/2402.02167v1 )

ライセンス: Link先を確認
Luca Podo, Muhammad Ishmal, Marco Angelini(参考訳) 可視化の自動生成は、長年にわたり、研究や実践者コミュニティからの関心がますます高まっている古いタスクである。 近年,大規模言語モデル (LLM) は可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。 同時に、所望の結果を生成するためにLLMに指示する複数の方法、生成を導く異なる視点(コードベース、画像ベース、文法ベース)、そして視覚化生成タスクでさえ幻覚の存在など、いくつかの落とし穴が、彼らの使用を予想より安くする。 LLMをベンチマークする同様の取り組みに続き、LLMによる生成した可視化の評価をモデル化する問題に対処する。 我々は,原子成分の評価作業を分解し,その性質を特徴づける理論評価スタックであるevallmを提案し,それらの実装と解釈の概要を提供する。 また,可視化生成タスクのためのベンチマークリソースを提供する評価プラットフォームを設計し,実装した。 プラットフォームは、複数の評価者が行う自動および手動のスコアをサポートし、EvaLLMスタックに基づいたきめ細かいセマンティック評価をサポートする。 Code Interpreter と Llama2-70-b モデルを用いた GPT3.5-turbo の2つのケーススタディは、EvaLLM の利点を示し、現在最先端の LLM 生成可視化に関する興味深い結果を示している。

The automatic generation of visualizations is an old task that, through the years, has shown more and more interest from the research and practitioner communities. Recently, large language models (LLM) have become an interesting option for supporting generative tasks related to visualization, demonstrating initial promising results. At the same time, several pitfalls, like the multiple ways of instructing an LLM to generate the desired result, the different perspectives leading the generation (code-based, image-based, grammar-based), and the presence of hallucinations even for the visualization generation task, make their usage less affordable than expected. Following similar initiatives for benchmarking LLMs, this paper copes with the problem of modeling the evaluation of a generated visualization through an LLM. We propose a theoretical evaluation stack, EvaLLM, that decomposes the evaluation effort in its atomic components, characterizes their nature, and provides an overview of how to implement and interpret them. We also designed and implemented an evaluation platform that provides a benchmarking resource for the visualization generation task. The platform supports automatic and manual scoring conducted by multiple assessors to support a fine-grained and semantic evaluation based on the EvaLLM stack. Two case studies on GPT3.5-turbo with Code Interpreter and Llama2-70-b models show the benefits of EvaLLM and illustrate interesting results on the current state-of-the-art LLM-generated visualizations.
翻訳日:2024-02-06 21:37:32 公開日:2024-02-03
# Bellman Infinity-error を用いた最適対向ロバストQ-ラーニングに向けて

Towards Optimal Adversarial Robust Q-learning with Bellman Infinity-error ( http://arxiv.org/abs/2402.02165v1 )

ライセンス: Link先を確認
Haoran Li, Zicheng Zhang, Wang Luo, Congying Han, Yudong Hu, Tiande Guo, Shichen Liao(参考訳) 強固な政策を確立することは、深層強化学習(DRL)エージェントに影響を及ぼす攻撃や妨害に対抗するために不可欠である。 近年の研究では、国家対向的ロバストネスを探求し、厳格なロバストネス制約を設定する上での課題を提起する最適なロバストポリシー(orp)の潜在的な欠如を示唆している。 はじめに、マルコフ決定過程における最適な行動は、経験的および理論的証拠によって支えられた小さな摂動と一貫しているというポリシー(CAP)の一貫性の仮定を導入する。 CAPを基盤として,ベルマン最適政策に適合する決定論的かつ定常なORPの存在を決定的に証明する。 さらに、orpを達成するためにベルマン誤差を最小化する場合、$l^{\infty}$-normの必要性を示す。 この発見は、ベルマン最適ポリシーを$L^{1}$-normでターゲットとする従来のDRLアルゴリズムの脆弱性を明らかにし、ベルマンインフィニティエラーのサロゲートを最小化することにより、一貫性のある逆ロバスト深部Q-ネットワーク(CAR-DQN)をトレーニングする動機となる。 CAR-DQNの様々なベンチマークにおける最上位性能は、その実用性を検証し、理論解析の健全性を補強する。

Establishing robust policies is essential to counter attacks or disturbances affecting deep reinforcement learning (DRL) agents. Recent studies explore state-adversarial robustness and suggest the potential lack of an optimal robust policy (ORP), posing challenges in setting strict robustness constraints. This work further investigates ORP: At first, we introduce a consistency assumption of policy (CAP) stating that optimal actions in the Markov decision process remain consistent with minor perturbations, supported by empirical and theoretical evidence. Building upon CAP, we crucially prove the existence of a deterministic and stationary ORP that aligns with the Bellman optimal policy. Furthermore, we illustrate the necessity of $L^{\infty}$-norm when minimizing Bellman error to attain ORP. This finding clarifies the vulnerability of prior DRL algorithms that target the Bellman optimal policy with $L^{1}$-norm and motivates us to train a Consistent Adversarial Robust Deep Q-Network (CAR-DQN) by minimizing a surrogate of Bellman Infinity-error. The top-tier performance of CAR-DQN across various benchmarks validates its practical effectiveness and reinforces the soundness of our theoretical analysis.
翻訳日:2024-02-06 21:37:04 公開日:2024-02-03
# TSIS: フラグメントに基づく分子表現のためのt-SMILESの補助アルゴリズム

TSIS: A Supplementary Algorithm to t-SMILES for Fragment-based Molecular Representation ( http://arxiv.org/abs/2402.02164v1 )

ライセンス: Link先を確認
Juan-Ni Wu, Tong Wang, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu(参考訳) SMILESのような文字列ベースの分子表現は、分子情報を線形に表現するためのデファクト標準である。 しかし、ペア化シンボルと解析アルゴリズムは長い文法的依存関係をもたらすため、最先端のディープラーニングモデルでさえ構文や意味を正確に理解することは困難である。 DeepSMILESとSELFIESはいくつかの制限に対処しているが、高度な文法に苦慮しているため、読みにくい文字列もある。 本研究では t-SMILES ファミリーに補足アルゴリズム TSIS (TSID Simplified) を導入する。 TSISと別のフラグメントベースの線形解SAFEの比較実験は、SAFEが文法における長期依存を管理する上での課題を示すことを示している。 TSIS は t-SMILES で定義されたツリーを基盤データ構造として使用し続けており、SAFE モデルとは分離されている。 TSISモデルの性能はSAFEモデルよりも優れており、t-SMILESファミリーのツリー構造がいくつかの利点をもたらすことを示している。

String-based molecular representations, such as SMILES, are a de facto standard for linearly representing molecular information. However, the must be paired symbols and the parsing algorithm result in long grammatical dependencies, making it difficult for even state-of-the-art deep learning models to accurately comprehend the syntax and semantics. Although DeepSMILES and SELFIES have addressed certain limitations, they still struggle with advanced grammar, which makes some strings difficult to read. This study introduces a supplementary algorithm, TSIS (TSID Simplified), to t-SMILES family. Comparative experiments between TSIS and another fragment-based linear solution, SAFE, indicate that SAFE presents challenges in managing long-term dependencies in grammar. TSIS continues to use the tree defined in t-SMILES as its foundational data structure, which sets it apart from the SAFE model. The performance of TSIS models surpasses that of SAFE models, indicating that the tree structure of the t-SMILES family provides certain advantages.
翻訳日:2024-02-06 21:36:36 公開日:2024-02-03
# ベイズクラスタの妥当性指数

A Bayesian cluster validity index ( http://arxiv.org/abs/2402.02162v1 )

ライセンス: Link先を確認
Nathakhun Wiroonsri and Onthada Preedasawakul(参考訳) クラスタ数を選択することは、クラスタリングアルゴリズムを適用する際の重要なプロセスのひとつです。 この課題を達成するために、様々なクラスタ妥当性指標(CVI)が導入された。 クラスタの妥当性指標の多くは、データセットに隠されたクラスタの最適な数を検出するために定義される。 しかし、ユーザは最適な数のグループを期待しない場合もあるが、アプリケーションにとってより合理的なセカンダリなグループがある。 これは既存のインデックスに基づいてベイズクラスタ妥当性指数(bcvi)を導入する動機となった。 この指数はdirichletまたはgeneralized dirichlet priorのいずれかに基づいて定義され、結果として同じ後方分布になる。 BCVIはWiroonsri index(WI)とWiroonsri-Preedasawakul index(WP)に基づいて,それぞれハードクラスタリングとソフトクラスタリングの基礎となる指標としてテストされる。 それらの結果と、元のインデックスと、davies と bouldin (db)、starczewski (str)、xie and beni (xb)、kwon2 インデックスを含むいくつかの既存のcvisを比較した。 提案したBCVIは,最終的なクラスタ数の予測範囲をユーザが指定可能な場合に,CVIの使用に有効である。 この側面は、実験によって3つの異なるケースに分類される。 最後に、MRI脳腫瘍画像を含む実世界のデータセットに適用する。 私たちのツールは、最近開発されたRパッケージ ``UniversalCVI'' の新バージョンに追加されます。

Selecting the number of clusters is one of the key processes when applying clustering algorithms. To fulfill this task, various cluster validity indices (CVIs) have been introduced. Most of the cluster validity indices are defined to detect the optimal number of clusters hidden in a dataset. However, users sometimes do not expect to get the optimal number of groups but a secondary one which is more reasonable for their applications. This has motivated us to introduce a Bayesian cluster validity index (BCVI) based on existing underlying indices. This index is defined based on either Dirichlet or Generalized Dirichlet priors which result in the same posterior distribution. Our BCVI is then tested based on the Wiroonsri index (WI), and the Wiroonsri-Preedasawakul index (WP) as underlying indices for hard and soft clustering, respectively. We compare their outcomes with the original underlying indices, as well as a few more existing CVIs including Davies and Bouldin (DB), Starczewski (STR), Xie and Beni (XB), and KWON2 indices. Our proposed BCVI clearly benefits the use of CVIs when experiences matter where users can specify their expected range of the final number of clusters. This aspect is emphasized by our experiment classified into three different cases. Finally, we present some applications to real-world datasets including MRI brain tumor images. Our tools will be added to a new version of the recently developed R package ``UniversalCVI''.
翻訳日:2024-02-06 21:36:19 公開日:2024-02-03
# 分布低減:Gromov-Wasserstein射影による次元化とクラスタリング

Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein Projection ( http://arxiv.org/abs/2402.02239v1 )

ライセンス: Link先を確認
Hugues Van Assel, C\'edric Vincent-Cuaz, Nicolas Courty, R\'emi Flamary, Pascal Frossard, Titouan Vayer(参考訳) 教師なし学習は、潜在的に大きな高次元データセットの構造を捉えることを目的としている。 伝統的に、これは次元還元法を用いて解釈可能な空間にデータを投影したり、意味のあるクラスタにポイントを整理する。 実際には、これらの手法は、クラスタリングが実行された次元削減とうまく一致することを保証することなく、順次使用される。 この仕事において、私たちは新しい視点、すなわち分布の観点を提示します。 最適な輸送、特にグロモフ・ワッサーシュタイン距離からツールを活用することで、クラスタリングと次元還元を分散還元と呼ばれる単一のフレームワークに統合する。 これにより、単一の最適化問題でクラスタリングと次元縮小を共同で解決できる。 総合的な実験により,本手法の汎用性と解釈性を強調し,様々な画像およびゲノミクスデータセットにまたがる既存手法よりも優れていることを示す。

Unsupervised learning aims to capture the underlying structure of potentially large and high-dimensional datasets. Traditionally, this involves using dimensionality reduction methods to project data onto interpretable spaces or organizing points into meaningful clusters. In practice, these methods are used sequentially, without guaranteeing that the clustering aligns well with the conducted dimensionality reduction. In this work, we offer a fresh perspective: that of distributions. Leveraging tools from optimal transport, particularly the Gromov-Wasserstein distance, we unify clustering and dimensionality reduction into a single framework called distributional reduction. This allows us to jointly address clustering and dimensionality reduction with a single optimization problem. Through comprehensive experiments, we highlight the versatility and interpretability of our method and show that it outperforms existing approaches across a variety of image and genomics datasets.
翻訳日:2024-02-06 21:28:32 公開日:2024-02-03
# 最短経路と最小ステイナツリー間のクエリ-決定回帰

Query-decision Regression between Shortest Path and Minimum Steiner Tree ( http://arxiv.org/abs/2402.02211v1 )

ライセンス: Link先を確認
Guangmo Tong, Peng Zhao, Mina Samizadeh(参考訳) 未知重みを持つグラフを考えると、ノードのサブセットに関連する最小のスタイナー木を知っていれば、一対のノードの最も短いパスを見つけることができるだろうか? すなわち、固定潜在意思決定システム(例えば、重み付きグラフ)に関して、別の最適化問題(例えば、最小シュタイナー木問題)に関連する情報を活用して、1つの最適化問題(例えば、最短経路問題)を解決しようとする。 本稿では,タスクシフトを用いた‘textit{query-decision regression’と呼ばれるプロトタイプ問題を,最短経路問題と最小スタイナーツリー問題に着目して検討する。 評価モデル構築のための実現可能な仮説空間の設計に関する理論的考察と、2つの原則的学習フレームワークを提案する。 実験により,このような問題は統計的意義をもってある程度解決できることが示された。

Considering a graph with unknown weights, can we find the shortest path for a pair of nodes if we know the minimal Steiner trees associated with some subset of nodes? That is, with respect to a fixed latent decision-making system (e.g., a weighted graph), we seek to solve one optimization problem (e.g., the shortest path problem) by leveraging information associated with another optimization problem (e.g., the minimal Steiner tree problem). In this paper, we study such a prototype problem called \textit{query-decision regression with task shifts}, focusing on the shortest path problem and the minimum Steiner tree problem. We provide theoretical insights regarding the design of realizable hypothesis spaces for building scoring models, and present two principled learning frameworks. Our experimental studies show that such problems can be solved to a decent extent with statistical significance.
翻訳日:2024-02-06 21:28:18 公開日:2024-02-03
# 微粒骨格に基づく行動認識のためのウェーブレットデカップリングコントラスト強化ネットワーク

Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained Skeleton-Based Action Recognition ( http://arxiv.org/abs/2402.02210v1 )

ライセンス: Link先を確認
Haochen Chang, Jing Chen, Yilin Li, Jixiang Chen, Xiaofeng Zhang(参考訳) 骨格に基づく行動認識は、簡潔さと堅牢さから多くの注目を集めている。 しかし、類似したアクションシーケンスにおけるクラス間変動の最小化はしばしば混乱を招く。 固有時空間結合特性は関節運動軌跡の微妙な差をマイニングすることが困難であり, 微視的動作の識別に不可欠である。 この問題を軽減するために,離散ウェーブレット変換を用いたウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。 そして、デカップリング注意が時間応答を適応的に補正する。 これらの微妙な動き特徴の相違を更に増幅するため、コントラスト学習による軌跡特徴への注意を高めるためのFCEモジュールを提案する。 粗粒度データセットntu rgb+dと細粒度データセットファインジャムについて,広範な実験を行った。 本手法は最先端手法と比較し, 紛らわしい細粒度動作をよく判別できる。

Skeleton-based action recognition has attracted much attention, benefiting from its succinctness and robustness. However, the minimal inter-class variation in similar action sequences often leads to confusion. The inherent spatiotemporal coupling characteristics make it challenging to mine the subtle differences in joint motion trajectories, which is critical for distinguishing confusing fine-grained actions. To alleviate this problem, we propose a Wavelet-Attention Decoupling (WAD) module that utilizes discrete wavelet transform to effectively disentangle salient and subtle motion features in the time-frequency domain. Then, the decoupling attention adaptively recalibrates their temporal responses. To further amplify the discrepancies in these subtle motion features, we propose a Fine-grained Contrastive Enhancement (FCE) module to enhance attention towards trajectory features by contrastive learning. Extensive experiments are conducted on the coarse-grained dataset NTU RGB+D and the fine-grained dataset FineGYM. Our methods perform competitively compared to state-of-the-art methods and can discriminate confusing fine-grained actions well.
翻訳日:2024-02-06 21:28:02 公開日:2024-02-03
# 生成AIドメインにおけるDCTトレースの爆発について

On the Exploitation of DCT-Traces in the Generative-AI Domain ( http://arxiv.org/abs/2402.02209v1 )

ライセンス: Link先を確認
Orazio Pontorno (1), Luca Guarnera (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) その登場以来、Deepfakesはサイバーセキュリティとデジタル犯罪の世界でもっとも困難な課題の1つだ。 近年の研究では、生成モデルが合成データにユニークな痕跡を残していることが発見されており、分析され詳細が特定できれば、既存のディープフェイク検出器の一般化限界を改善するために利用することができる。 そこで本研究では, 離散コサイン変換(DCT)のβ-AC係数を詳細に検討し, 周波数領域のディープフェイク画像を解析した。 すべての係数が画像認識に等しく寄与するわけではないことを認識し、係数の特定の組み合わせに埋め込まれた画像の種類ごとにユニークな「識別指紋」の存在を仮定する。 それらを特定するために、機械学習分類器は様々な係数の組み合わせで訓練された。 説明可能なai(xai)ライムアルゴリズムと神経分類器を組み合わせることで、係数の代替組み合わせを探索することで、合成画像の識別的特徴に関する深い洞察が得られる。 実験結果から, 生成モデルが残した痕跡の分析を改善するために, β-AC係数の特定の組み合わせを用いることの有意な可能性を明らかにした。

Since their appearance, Deepfakes represent one of the toughest challenges in the world of Cybersecurity and Digital Forensics. In recent years, researchers have discovered that generative models leave unique traces in synthetic data that, if analyzed and identified in detail, can be exploited to improve the generalization limitations of existing deepfake detectors. To capture this evidence, in this paper we analyzed deepfake images in the frequency domain, examining in detail the beta-AC coefficients of the Discrete Cosine Transform (DCT). Recognizing that not all coefficients contribute equally to image recognition, we hypothesize the existence of a unique "discriminative fingerprint" for each type of image, embedded in specific combinations of coefficients. To identify them, Machine Learning classifiers were trained on various combinations of coefficients. The integration of the Explainable AI (XAI) LIME algorithm combined with a neural classifier to explore alternative combinations of coefficients provides a deeper insight into the discriminative features of synthetic images. Experimental results reveal the significant potential of using a specific combination of beta-AC coefficients in order to improve the analysis of traces left by generative models.
翻訳日:2024-02-06 21:27:42 公開日:2024-02-03
# タイル性材料のテクスチャの暗黙的神経表現

Implicit Neural Representation of Tileable Material Textures ( http://arxiv.org/abs/2402.02208v1 )

ライセンス: Link先を確認
Hallison Paz, Tiago Novello, Luiz Velho(参考訳) 周期的なタイル状テクスチャを表現するために,正弦波ニューラルネットワークを探索する。 本手法は正弦波ニューラルネットワークの第1層を周期$P$の整数周波数で初期化することによりフーリエ級数を利用する。 正弦波層の合成は周期$p$ の整数周波数のみを生成することが証明される。 その結果,ネットワークは周期パターンの連続表現を学習し,補間を必要とせずに任意の空間座標で直接評価できる。 結果として得られるパターンをタイル化できるように、ポアソン方程式に基づく正規化項を損失関数に追加する。 提案するニューラル暗黙的表現はコンパクトであり,高精細度で高精細度で高精細なテクスチャの効率的な再構成を可能にする。 本稿では,アンチエイリアス表面の領域におけるアプローチの応用について述べる。

We explore sinusoidal neural networks to represent periodic tileable textures. Our approach leverages the Fourier series by initializing the first layer of a sinusoidal neural network with integer frequencies with a period $P$. We prove that the compositions of sinusoidal layers generate only integer frequencies with period $P$. As a result, our network learns a continuous representation of a periodic pattern, enabling direct evaluation at any spatial coordinate without the need for interpolation. To enforce the resulting pattern to be tileable, we add a regularization term, based on the Poisson equation, to the loss function. Our proposed neural implicit representation is compact and enables efficient reconstruction of high-resolution textures with high visual fidelity and sharpness across multiple levels of detail. We present applications of our approach in the domain of anti-aliased surface.
翻訳日:2024-02-06 21:27:23 公開日:2024-02-03
# コストのない(ほとんど)安全性の微調整 - vision large language model のベースライン

Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models ( http://arxiv.org/abs/2402.02207v1 )

ライセンス: Link先を確認
Yongshuo Zong, Ondrej Bohdal, Tingyang Yu, Yongxin Yang, Timothy Hospedales(参考訳) 現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成しやすく、最も単純なジェイルブレイク攻撃にも脆弱である。 我々の初期分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であり、VLLM微調整は、以前にLLMが学習した安全アライメントを忘れてしまう可能性がある。 この問題に対処するために、まず、様々な有害カテゴリをカバーする視覚言語安全な命令フォローデータセットVLGuardをキュレートする。 我々の実験は、このデータセットを標準的な視覚言語による微調整に統合するか、あるいはポストホックな微調整に利用することで、VLLMを効果的に適合させることを示した。 このアライメントは、モデルの有用性に最小限の影響、あるいは強化することで達成される。 安全微調整データセットの汎用性により、既存のVLLMの安全性テスト、新しいモデルのトレーニング、トレーニング済みのVLLMの保護に有用なリソースになります。 実験の結果, 微調整VLLMは安全でない命令を効果的に拒否し, ブラックボックス攻撃の成功率を大幅に低下させ, 多くの場合ゼロに近づいた。 コードとデータセットはhttps://github.com/ys-zong/vlguardで入手できる。

Current vision large language models (VLLMs) exhibit remarkable capabilities yet are prone to generate harmful content and are vulnerable to even the simplest jailbreaking attacks. Our initial analysis finds that this is due to the presence of harmful data during vision-language instruction fine-tuning, and that VLLM fine-tuning can cause forgetting of safety alignment previously learned by the underpinning LLM. To address this issue, we first curate a vision-language safe instruction-following dataset VLGuard covering various harmful categories. Our experiments demonstrate that integrating this dataset into standard vision-language fine-tuning or utilizing it for post-hoc fine-tuning effectively safety aligns VLLMs. This alignment is achieved with minimal impact on, or even enhancement of, the models' helpfulness. The versatility of our safety fine-tuning dataset makes it a valuable resource for safety-testing existing VLLMs, training new models or safeguarding pre-trained VLLMs. Empirical results demonstrate that fine-tuned VLLMs effectively reject unsafe instructions and substantially reduce the success rates of several black-box adversarial attacks, which approach zero in many cases. The code and dataset are available at https://github.com/ys-zong/VLGuard.
翻訳日:2024-02-06 21:27:11 公開日:2024-02-03
# 非相互作用フェルミ気体の一体密度行列の遺伝性を保存する

Preserving the Hermiticity of the One-Body Density Matrix for a Non-Interacting Fermi Gas ( http://arxiv.org/abs/2402.02206v1 )

ライセンス: Link先を確認
L. M. Farrell, D. Eaton, P. Chitnelawong, B. P. van Zyl(参考訳) D次元ゼロ温度非接触フェルミガスに対する1体密度行列(ODM)は、様々な$\hbar$-expansion技術によって半古典的状態においてほぼ得られる。 ODM を近似するそれぞれの方法は、エルミート行列と等等級行列の両方を$\hbar$ の任意の順序で生成することが期待できる。 しかし、Kirzhnits と Wigner-Kirkwood の手法はこれらの性質を得られないが、Grammaticos と Voros の手法はそうである。 ここで、任意の $d\geq 1$-dimensions に対して、対称座標への適切な変更を通じて、各メソッドが真に同一であり、エルミート的かつべき等であることを示す。 この変数の変化は、様々な方法の不一致を解消し、キルツニッツ法とウィグナー=キルクウッド法の非エルミート的および非イデマント的挙動は、半古典的$\hbar$-expansionに対する非対称的切断を実行する人工物であることを示している。 私たちの研究は、d = 1, 2, 3, 4$ 式に基づいて、redjatiらによって最初に提案された $d\geq 1$-dimensional grammaticos と voros odm の最初の明示的な導出も提供する。

The one-body density matrix (ODM) for a d-dimensional zero temperature non-interacting Fermi gas can be approximately obtained in the semiclassical regime through different $\hbar$-expansion techniques. One would expect that each method of approximating the ODM should yield equivalent density matrices which are both Hermitian and idempotent to any order in $\hbar$. However, the Kirzhnits and Wigner-Kirkwood methods do not yield these properties, while the method of Grammaticos and Voros does. Here we show explicitly, for arbitrary $d\geq 1$-dimensions through an appropriate change into symmetric coordinates, that each method is indeed identical, Hermitian, and idempotent. This change of variables resolves the inconsistencies between the various methods, showing that the non-Hermitian and non-idempotent behaviour of the Kirzhnits and Wigner-Kirkwood methods is an artifact of performing a non-symmetric truncation to the semiclassical $\hbar$-expansions. Our work also provides the first explicit derivation of the $d\geq 1$-dimensional Grammaticos and Voros ODM, originally proposed by Redjati et al. based on their $d = 1, 2, 3, 4$ expressions.
翻訳日:2024-02-06 21:26:46 公開日:2024-02-03
# 交通アシスタントとしてのGPT-4V:複雑な交通イベントの視覚言語モデルの詳細

GPT-4V as Traffic Assistant: An In-depth Look at Vision Language Model on Complex Traffic Events ( http://arxiv.org/abs/2402.02205v1 )

ライセンス: Link先を確認
Xingcheng Zhou, Alois C. Knoll(参考訳) 交通事故、特に交通事故の認識と理解は、インテリジェントな輸送システムとインテリジェントな車両の領域において最重要事項である。 この地域は、学術分野と産業分野の両方の広範な焦点を継続的に捉えてきた。 複雑な交通イベントの特定と理解は、主に交通環境の複雑な性質、多様な観察的視点、そして事故の多面的原因のため、非常に困難である。 これらの要因は、効果的なソリューションの開発を永続的に妨げている。 GPT-4Vのような大規模視覚言語モデル(VLM)の出現は、この問題に対処するための革新的なアプローチを導入している。 本稿では,GPT-4Vを代表的トラフィックインシデントビデオのセットで探索し,これらの複雑なトラフィック状況を理解する能力について検討する。 gpt-4vは、ある古典的な交通イベントにおいて、顕著な認知、推論、意思決定能力を示す。 同時に、より複雑なシナリオでの理解を制限するgpt-4vの制限も特定した。 これらの制限はさらなる探索と解決に役立つ。

The recognition and understanding of traffic incidents, particularly traffic accidents, is a topic of paramount importance in the realm of intelligent transportation systems and intelligent vehicles. This area has continually captured the extensive focus of both the academic and industrial sectors. Identifying and comprehending complex traffic events is highly challenging, primarily due to the intricate nature of traffic environments, diverse observational perspectives, and the multifaceted causes of accidents. These factors have persistently impeded the development of effective solutions. The advent of large vision-language models (VLMs) such as GPT-4V, has introduced innovative approaches to addressing this issue. In this paper, we explore the ability of GPT-4V with a set of representative traffic incident videos and delve into the model's capacity of understanding these complex traffic situations. We observe that GPT-4V demonstrates remarkable cognitive, reasoning, and decision-making ability in certain classic traffic events. Concurrently, we also identify certain limitations of GPT-4V, which constrain its understanding in more intricate scenarios. These limitations merit further exploration and resolution.
翻訳日:2024-02-06 21:26:22 公開日:2024-02-03
# マルチタスクベイズ最適化による組合せライブラリの構造・性能関係探索のためのマルチモーダルコオーケストレーション

Multimodal Co-orchestration for Exploring Structure-Property Relationships in Combinatorial Libraries via Multi-Task Bayesian Optimization ( http://arxiv.org/abs/2402.02198v1 )

ライセンス: Link先を確認
Boris N. Slautin, Utkarsh Pratiush, Ilia N. Ivanov, Yongtao Liu, Rohit Pant, Xiaohang Zhang, Ichiro Takeuchi, Maxim A. Ziatdinov and Sergei V. Kalinin(参考訳) 自動および自律的な機器の急速な成長は、複数のシーケンシャルな検出方法や、同一のサンプルを探索するいくつかの特徴付けツールを備えたマルチモーダルツールの共同開発の機会を生み出した。 これは、複数のツールで同時に複数の場所で探索できる組合せライブラリや、自動合成システムにおける下流のキャラクタリゼーションによって例示できる。 協調的アプローチでは、1つのモダリティで得られる情報は、他のモダリティの発見を加速する。 それに対応して、オーケストレーションエージェントは、期待される知識獲得と測定コストに基づいて測定モダリティを選択する。 本稿では,スペクトルや画像などの複雑な可観測性を持つ計測を行うためのコorchestration手法を提案し,実装する。 この手法は,変分自己エンコーダと表現学習を組み合わせることで,潜在空間構造を制御し,マルチタスクガウス過程(GP)を介して反復的ワークフローに統合する。 このアプローチにより、gpの平均関数として確率モデルを介して、システムの物理をネイティブに組み込むことができる。 Sm-BiFeO_3$ライブラリ上で圧電力顕微鏡とマイクロラマンの異なるモーダル性について検討した。 しかし,提案手法は一般的であり,計測信号の多次元性や任意の次元性にも拡張できる。 資金をサポートする分析コードは、https://github.com/slautin/2024_co-orchestrationで公開されている。

The rapid growth of automated and autonomous instrumentations brings forth an opportunity for the co-orchestration of multimodal tools, equipped with multiple sequential detection methods, or several characterization tools to explore identical samples. This can be exemplified by the combinatorial libraries that can be explored in multiple locations by multiple tools simultaneously, or downstream characterization in automated synthesis systems. In the co-orchestration approaches, information gained in one modality should accelerate the discovery of other modalities. Correspondingly, the orchestrating agent should select the measurement modality based on the anticipated knowledge gain and measurement cost. Here, we propose and implement a co-orchestration approach for conducting measurements with complex observables such as spectra or images. The method relies on combining dimensionality reduction by variational autoencoders with representation learning for control over the latent space structure, and integrated into iterative workflow via multi-task Gaussian Processes (GP). This approach further allows for the native incorporation of the system's physics via a probabilistic model as a mean function of the GP. We illustrated this method for different modalities of piezoresponse force microscopy and micro-Raman on combinatorial $Sm-BiFeO_3$ library. However, the proposed framework is general and can be extended to multiple measurement modalities and arbitrary dimensionality of measured signals. The analysis code that supports the funding is publicly available at https://github.com/Slautin/2024_Co-orchestration.
翻訳日:2024-02-06 21:26:07 公開日:2024-02-03
# 並列大規模ランキング選択のためのサンプル効率の高いクラスタリングと探索手順

Sample-Efficient Clustering and Conquer Procedures for Parallel Large-Scale Ranking and Selection ( http://arxiv.org/abs/2402.02196v1 )

ライセンス: Link先を確認
Zishi Zhang, Yijie Peng(参考訳) 本稿では,クラスタ化のための相関情報を利用してサンプル効率のボトルネックを解消する並列大規模ランキング選択(r&s)問題に対する新しい「クラスタ化と克服」手法を提案する。 並列コンピューティング環境では、相関ベースのクラスタリングは、理論的に達成可能な最適な還元率である$\mathcal{o}(p)$サンプル複雑性低減率を達成することができる。 提案するフレームワークは汎用性が高く,固定予算と固定精度の両方のパラダイムの下で,様々なR&S手法をシームレスに統合することができる。 高精度な相関推定と正確なクラスタリングを必要とせずに改善を実現することができる。 ニューラルアーキテクチャ検索のような大規模AIアプリケーションでは、スクリーニングなしバージョンの手順が、サンプル効率の点で完全に順序づけられたベンチマークを驚くほど上回っている。 これは、相関のような貴重な構造情報を活用することは、従来の対比較によるスクリーニングの必要性を回避するための有効な経路であることを示唆している。 さらに,大規模問題に適した並列数ショットクラスタリングアルゴリズムを提案する。

We propose novel "clustering and conquer" procedures for the parallel large-scale ranking and selection (R&S) problem, which leverage correlation information for clustering to break the bottleneck of sample efficiency. In parallel computing environments, correlation-based clustering can achieve an $\mathcal{O}(p)$ sample complexity reduction rate, which is the optimal reduction rate theoretically attainable. Our proposed framework is versatile, allowing for seamless integration of various prevalent R&S methods under both fixed-budget and fixed-precision paradigms. It can achieve improvements without the necessity of highly accurate correlation estimation and precise clustering. In large-scale AI applications such as neural architecture search, a screening-free version of our procedure surprisingly surpasses fully-sequential benchmarks in terms of sample efficiency. This suggests that leveraging valuable structural information, such as correlation, is a viable path to bypassing the traditional need for screening via pairwise comparison--a step previously deemed essential for high sample efficiency but problematic for parallelization. Additionally, we propose a parallel few-shot clustering algorithm tailored for large-scale problems.
翻訳日:2024-02-06 21:25:42 公開日:2024-02-03
# RecNet:マルチロボットマップ共有と再構成のためのレンジイメージ埋め込みによる可逆的ポイントクラウドエンコーディング

RecNet: An Invertible Point Cloud Encoding through Range Image Embeddings for Multi-Robot Map Sharing and Reconstruction ( http://arxiv.org/abs/2402.02192v1 )

ライセンス: Link先を確認
Nikolaos Stathoulopoulos, Mario A.V. Saucedo, Anton Koval and George Nikolakopoulos(参考訳) 本稿では,資源拘束型ロボットの分野とマルチロボットシステムにおける効果的な位置認識の必要性について,両課題を同時に解決する新しいアプローチであるRecNetを紹介する。 RecNetの方法論の中核は、3Dポイントクラウドを深度画像に投影し、エンコーダ・デコーダフレームワークを使用して圧縮し、その後レンジイメージを再構築し、元のポイントクラウドをシームレスに復元する。 さらに、RecNetはこのプロセスから抽出した潜伏ベクトルを効率的な位置認識タスクに利用する。 このユニークなアプローチは、同等の場所認識結果を達成するだけでなく、ロボット間のシームレスな共有に適したコンパクトな表現も維持している。 recnetの評価は、位置認識性能、再構成された点雲の構造的類似性、および潜在ベクトルのみを共有することに由来する帯域幅伝達の利点を含む、一連の指標を含んでいる。 この再構築された地図は、ナビゲーション、ローカライゼーション、マップマージ、その他の関連するミッションにおけるユーザビリティを探求するための画期的な方法である。 提案手法は,公開データセットとフィールド実験の両方を用いて厳密に評価し,実世界の応用の可能性を確認した。

In the field of resource-constrained robots and the need for effective place recognition in multi-robotic systems, this article introduces RecNet, a novel approach that concurrently addresses both challenges. The core of RecNet's methodology involves a transformative process: it projects 3D point clouds into depth images, compresses them using an encoder-decoder framework, and subsequently reconstructs the range image, seamlessly restoring the original point cloud. Additionally, RecNet utilizes the latent vector extracted from this process for efficient place recognition tasks. This unique approach not only achieves comparable place recognition results but also maintains a compact representation, suitable for seamless sharing among robots to reconstruct their collective maps. The evaluation of RecNet encompasses an array of metrics, including place recognition performance, structural similarity of the reconstructed point clouds, and the bandwidth transmission advantages, derived from sharing only the latent vectors. This reconstructed map paves a groundbreaking way for exploring its usability in navigation, localization, map-merging, and other relevant missions. Our proposed approach is rigorously assessed using both a publicly available dataset and field experiments, confirming its efficacy and potential for real-world applications.
翻訳日:2024-02-06 21:25:22 公開日:2024-02-03
# 組合せ最適化問題における多様な解を求める連続テンソル緩和

Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems ( http://arxiv.org/abs/2402.02190v1 )

ライセンス: Link先を確認
Yuma Ichikawa, Hiroaki Iwashita(参考訳) 最適解を見つけることは組合せ最適化(CO)問題の最も一般的な目的である。 しかし、目的関数と制約は本来の実世界の状況の近似に過ぎないため、現実的なシナリオでは単一の解は適さないかもしれない。 これに取り組むために (i)「異種解」、異なる特徴を有する多種多様な解、及び (ii)制約重大度の変化である「ペナルティ・ダイバーシファイズド・ソリューション」は自然方向である。 この戦略は、後処理中に適切なソリューションを選択する柔軟性を提供する。 しかし、これらの多様なソリューションを見つけることは、単一のソリューションを特定するよりも難しい。 この課題を克服するために、教師なし学習に基づくCOソルバのための連続テンソル緩和アニーリング(CTRA)を導入する。 CTRAは、離散決定変数を連続テンソルに変換する連続緩和アプローチを拡張して、様々な問題に同時に対処する。 この方法は相互相互作用を通じて不均一でペナルティに富んだ解を見つけ、一方の解の選択は他の解に影響を及ぼす。 数値実験により、CTRAにより、ULベースの解法は既存のULベースの解法よりもはるかに高速に不均一でペナルティに分散した解を見つけることができることが示された。 さらに、これらの実験により、CTRAは探査能力を高めることが明らかとなった。

Finding the best solution is the most common objective in combinatorial optimization (CO) problems. However, a single solution may not be suitable in practical scenarios, as the objective functions and constraints are only approximations of original real-world situations. To tackle this, finding (i) "heterogeneous solutions", diverse solutions with distinct characteristics, and (ii) "penalty-diversified solutions", variations in constraint severity, are natural directions. This strategy provides the flexibility to select a suitable solution during post-processing. However, discovering these diverse solutions is more challenging than identifying a single solution. To overcome this challenge, this study introduces Continual Tensor Relaxation Annealing (CTRA) for unsupervised-learning-based CO solvers. CTRA addresses various problems simultaneously by extending the continual relaxation approach, which transforms discrete decision variables into continual tensors. This method finds heterogeneous and penalty-diversified solutions through mutual interactions, where the choice of one solution affects the other choices. Numerical experiments show that CTRA enables UL-based solvers to find heterogeneous and penalty-diversified solutions much faster than existing UL-based solvers. Moreover, these experiments reveal that CTRA enhances the exploration ability.
翻訳日:2024-02-06 21:24:58 公開日:2024-02-03
# オーバーサンプリングと特徴増強を用いた深層学習による糖尿病検出

Diabetes detection using deep learning techniques with oversampling and feature augmentation ( http://arxiv.org/abs/2402.02188v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, Carmen Benavides, Jos\'e Alberto Ben\'itez-Andrades, H\'ector Alaiz-Moret\'on and Isa\'ias Garc\'ia-Rodr\'iguez(参考訳) 背景と目的:糖尿病は慢性の病理であり、近年ますます多くの人に影響を与えている。 毎年多数の死者が出ている。 さらに、この病気に苦しむ多くの人々は、健康状態の重大さを十分に理解していない。 遅発性診断は、毎年多くの健康上の問題と多くの死亡をもたらすため、この疾患の早期診断法の開発が不可欠である。 方法: 本論文では, 糖尿病者を予測するために, 深層学習手法に基づくパイプラインを提案する。 これには、変動オートエンコーダ(VAE)を用いたデータ拡張、スパースオートエンコーダ(SAE)を用いた機能拡張、分類のための畳み込みニューラルネットワークが含まれる。 pima indians diabetes database(pima indians diabetes database)は、妊娠、血糖値またはインスリン値、血圧または年齢などの患者の情報を考慮して評価されている。 結果: CNN分類器の精度は92.31%で、よくバランスの取れたデータセット上の拡張を特徴付けるSAEと共同で訓練された。 これは、最先端に関する精度の3.17%の上昇を意味する。 結論: データ前処理と分類に完全なディープラーニングパイプラインを使用することは、最先端の提案よりも優れた糖尿病検出分野において非常に有望であることが示されている。

Background and objective: Diabetes is a chronic pathology which is affecting more and more people over the years. It gives rise to a large number of deaths each year. Furthermore, many people living with the disease do not realize the seriousness of their health status early enough. Late diagnosis brings about numerous health problems and a large number of deaths each year so the development of methods for the early diagnosis of this pathology is essential. Methods: In this paper, a pipeline based on deep learning techniques is proposed to predict diabetic people. It includes data augmentation using a variational autoencoder (VAE), feature augmentation using an sparse autoencoder (SAE) and a convolutional neural network for classification. Pima Indians Diabetes Database, which takes into account information on the patients such as the number of pregnancies, glucose or insulin level, blood pressure or age, has been evaluated. Results: A 92.31% of accuracy was obtained when CNN classifier is trained jointly the SAE for featuring augmentation over a well balanced dataset. This means an increment of 3.17% of accuracy with respect the state-of-the-art. Conclusions: Using a full deep learning pipeline for data preprocessing and classification has demonstrate to be very promising in the diabetes detection field outperforming the state-of-the-art proposals.
翻訳日:2024-02-06 21:24:41 公開日:2024-02-03
# 進化を導く生成フローネットワーク

Evolution Guided Generative Flow Networks ( http://arxiv.org/abs/2402.02186v1 )

ライセンス: Link先を確認
Zarif Ikram, Ling Pan, Dianbo Liu(参考訳) 生成フローネットワーク(gflownets)は、その報酬に比例する構成オブジェクトのサンプルを学ぶ確率的生成モデルの一群である。 gflownetsの大きな課題のひとつは、長い時間軸とわずかな報酬を扱う場合に効果的にトレーニングすることだ。 そこで本研究では,進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEvolution Guided Generative Flow Network (EGFN)を提案する。 本手法は,任意のGFlowNetsトレーニング目標上で動作し,EAを用いてエージェントパラメータのセットをトレーニングし,得られたトラジェクトリを優先度付けされたリプレイバッファに格納し,格納されたトラジェクトリを用いてGFlowNetsエージェントをトレーニングする。 本研究は,長い軌道とスパース報酬を扱う上での手法の有効性を示す,幅広い玩具および実世界のベンチマークタスクについて,徹底的な調査を行う。

Generative Flow Networks (GFlowNets) are a family of probabilistic generative models that learn to sample compositional objects proportional to their rewards. One big challenge of GFlowNets is training them effectively when dealing with long time horizons and sparse rewards. To address this, we propose Evolution guided generative flow networks (EGFN), a simple but powerful augmentation to the GFlowNets training using Evolutionary algorithms (EA). Our method can work on top of any GFlowNets training objective, by training a set of agent parameters using EA, storing the resulting trajectories in the prioritized replay buffer, and training the GFlowNets agent using the stored trajectories. We present a thorough investigation over a wide range of toy and real-world benchmark tasks showing the effectiveness of our method in handling long trajectories and sparse rewards.
翻訳日:2024-02-06 21:24:19 公開日:2024-02-03
# メソスコピックボソニック系における絡み合いのオープンダイナミクス

Open dynamics of entanglement in mesoscopic bosonic systems ( http://arxiv.org/abs/2402.02260v1 )

ライセンス: Link先を確認
Konrad Schlichtholz, {\L}ukasz Rudnicki(参考訳) 量子情報の観点からの重要な問題の1つはメソスコピックスケールのシステムの記述であり、これは完全な量子形式よりも単純であるが、絡み合いのような量子情報処理に必要な古典的でない現象に関する情報を保持する。 特に、完全ボソニックシステムに関するメソスコピックな記述は、完全にフォトニックな量子コンピューティングと通信がこの分野の発展のための重要な道の1つであるため、非常に興味をそそられる。 本稿では,非ガウス状態と非ガウス状態の両方の絡み合いの開進化を追跡できるボゾン数相関に基づく系のメゾスコピックな記述と,それらの下位ポアソニアン統計法を提案する。 この記述は, エントロピー2019, 21(7), 705] の縮小状態の一般化に寄与するが, それ自体は絡み合いに関する情報は含まない。 このアプローチの重要な特徴の1つは、既知のツールを直感的に利用できるように、第一量子化の観点から2つの粒子の記述構造を継承することである。 提案手法を用いて,4モードの励起真空状態とビームスプリット単一光子に対する低温減衰に対する絡み合いの堅牢性を示す。 さらに,この記述を通じてアクセス可能なマンデルQパラメータの一般化を提案し,この結果から,単一占有モードのビーム分割によって得られる状態の絡み合いが,入力状態のポアソニアン以下の統計から完全に受け継がれることを示す。

One of the important problems from the perspective of Quantum Information is the description of systems on the mesoscopic scale, which is simpler than the full quantum formalism but maintains information about non-classical phenomena necessary for Quantum Information tasks like entanglement. In particular, mesoscopic descriptions of fully bosonic systems undergoing open evolution are of high interest, as fully photonic quantum computing and communication are one of the prominent avenues for the development of the field. In this paper, we propose a mesoscopic description of such systems based on boson number correlations, which allows for tracking open evolution of entanglement of both non-Gaussian and Gaussian states, and their sub-Poissonian statistics. Our description contributes as a generalization of the reduced state of the field formalism [Entropy 2019, 21(7), 705], which by itself does not contain information about entanglement. One of the important features of our approach is that it inherits the structure of the description of two particles in terms of first quantization, which allows for intuitive broad usage of already known tools. Using the proposed formalism, we show the robustness of entanglement against low-temperature damping for four mode bright squeezed vacuum state and beamsplitted single photon. What is more, we propose generalization of the Mandel Q parameter accessible through our description, and upon this we show that the entanglement of the state obtained by beam splitting single-occupied mode is fully inherited from sub-Poissonian statistics of the input state.
翻訳日:2024-02-06 21:18:34 公開日:2024-02-03
# 不均衡データセット上のバイナリセマンティックセマンティックセグメンテーションのための生成逆ネットワークの再検討

Revisiting Generative Adversarial Networks for Binary Semantic Segmentation on Imbalanced Datasets ( http://arxiv.org/abs/2402.02245v1 )

ライセンス: Link先を確認
Lei Xu and Moncef Gabbouj(参考訳) 異常舗装表面条件検出は、アルゴリズムにより、ひび割れ等の異常状態を表す画素を自動的に検出することを目的としている。 近年,パフォーマンスに優れた関連トピックに対して,ディープラーニングモデルが集中的に適用されている。 しかし、既存のディープラーニング関連のソリューションの多くは、さまざまなデータセットで安定したパフォーマンスを達成することは滅多にない。 そこで本研究では,画素レベルでの舗装画像の異常領域検出のための条件付き生成逆ネットワークに基づく深層学習フレームワークを提案する。 特に,提案フレームワークは,2段階の学習段階とマルチスケールの特徴表現を有する異種入力から確率特徴写像を推定する能力を高めるために開発された。 さらに,重度不均衡データセットにおけるモデルトレーニングの性能低下を軽減するため,提案フレームワークにいくつかの注意機構が組み込まれている。 6つのアクセス可能な舗装データセットで実験を行う。 大規模定性的および定量的実験により,提案フレームワークはこれらのデータセット上でSOTA結果を効率よく,かつ堅牢に達成できることを示した。

Anomalous pavement surface conditions detection aims to detect pixels representing anomalous states, such as cracks, on pavement surface images automatically by algorithms. Recently, deep learning models have been intensively applied to related topics with outstanding performance. However, most existing deep learning-related solutions rarely achieve a stable performance on diverse datasets. To address this issue, in this work, we propose a deep learning framework based on conditional Generative Adversarial Networks for anomalous region detection on pavement images at the pixel level. In particular, the proposed framework is developed to enhance the generator's ability to estimate the probability feature map from heterogeneous inputs with two training stages and multiscale feature representation. Moreover, several attention mechanisms are incorporated into the proposed framework to mitigate the performance deterioration of model training on severely imbalanced datasets. We implement experiments on six accessible pavement datasets. Extensive qualitative and quantitative experiments demonstrate that the proposed framework can achieve SOTA results on these datasets efficiently and robustly.
翻訳日:2024-02-06 21:18:06 公開日:2024-02-03
# 限界を超えて:大規模言語モデルにおける文脈長を拡張する手法の調査

Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models ( http://arxiv.org/abs/2402.02244v1 )

ライセンス: Link先を確認
Xindi Wang, Mahsa Salmani, Parsa Omidi, Xiangyu Ren, Mehdi Rezagholizadeh, Armaghan Eshaghi(参考訳) 近年,大規模言語モデル (LLM) は,文脈理解,論理的推論への関与,応答の生成など,顕著な能力を示している。 しかし、これは厳密な計算とメモリ要求を犠牲にして達成され、長い入力シーケンスを効果的にサポートする能力を妨げる。 本調査は,LLMのシーケンス長を延長するために考案された最近の手法と手法を包括的にレビューし,長文理解の能力を高めるものである。 特に,計算要求の比例増加を回避しつつ,より長いシーケンスの処理性を向上させるために設計された,修正位置符号化やアテンション機構の変更など,アーキテクチャの変更を含む幅広い技術の検討と分類を行う。 本研究で検討した多種多様な手法は, LLMの異なる位相,すなわちトレーニング, 微調整, 推論に利用することができる。 これにより、LLMは拡張シーケンスを効率的に処理できる。 今後の研究の方向性を示唆する上で,LLMの継続的な進歩におけるシーケンス長の重要性を浮き彫りにした上で,現行の方法論の限界について論じる。

Recently, large language models (LLMs) have shown remarkable capabilities including understanding context, engaging in logical reasoning, and generating responses. However, this is achieved at the expense of stringent computational and memory requirements, hindering their ability to effectively support long input sequences. This survey provides an inclusive review of the recent techniques and methods devised to extend the sequence length in LLMs, thereby enhancing their capacity for long-context understanding. In particular, we review and categorize a wide range of techniques including architectural modifications, such as modified positional encoding and altered attention mechanisms, which are designed to enhance the processing of longer sequences while avoiding a proportional increase in computational requirements. The diverse methodologies investigated in this study can be leveraged across different phases of LLMs, i.e., training, fine-tuning and inference. This enables LLMs to efficiently process extended sequences. The limitations of the current methodologies is discussed in the last section along with the suggestions for future research directions, underscoring the importance of sequence length in the continued advancement of LLMs.
翻訳日:2024-02-06 21:17:49 公開日:2024-02-03
# llms, chatgpt, 接頭辞, 意味と理解

Language Writ Large: LLMs, ChatGPT, Grounding, Meaning and Understanding ( http://arxiv.org/abs/2402.02243v1 )

ライセンス: Link先を確認
Stevan Harnad(参考訳) OpenAIが私たちから何を隠しているかは別として、ChatGPTがどのように機能するか(大体、巨大なテキストデータベース、その統計、ベクトル表現、そして膨大な数のパラメータ、その次の単語のトレーニングなど)は知っています。 しかし、チャットgptがこれらのリソースでできることが証明されたことに、私たちは(心の中で)驚かない。 これは、ChatGPTが実際に理解していると結論付けるきっかけにもなった。 それが理解できるのは事実ではない。 しかし、それが何ができるのかを理解することも事実ではない。 LLMスケールで現れる収束的制約は、ChatGPTが予想していたよりもずっと良いことをするのに役立つかもしれません。 これらのバイアスはLLMスケールで言語自体の性質に固有のものであり、ChatGPTが欠落していることと密接に関連している。 これらの収束バイアスは、(1)直接感性基底に基づく間接的言語基底の寄生、(2)言語定義の循環性、(3)言語生成と理解のミラーリング、(4)llmスケールにおける命題の象徴性、(5)ニューラルネットワークによるカテゴリー学習における人間のカテゴリー認識の計算的対応、および(6)チョムスキーによる思考の法則に関する予想にも関係している。 展示はChatGPT-4との対話の形で行われる。

Apart from what (little) OpenAI may be concealing from us, we all know (roughly) how ChatGPT works (its huge text database, its statistics, its vector representations, and their huge number of parameters, its next-word training, and so on). But none of us can say (hand on heart) that we are not surprised by what ChatGPT has proved to be able to do with these resources. This has even driven some of us to conclude that ChatGPT actually understands. It is not true that it understands. But it is also not true that we understand how it can do what it can do. I will suggest some hunches about benign biases: convergent constraints that emerge at LLM scale that may be helping ChatGPT do so much better than we would have expected. These biases are inherent in the nature of language itself, at LLM scale, and they are closely linked to what it is that ChatGPT lacks, which is direct sensorimotor grounding to connect its words to their referents and its propositions to their meanings. These convergent biases are related to (1) the parasitism of indirect verbal grounding on direct sensorimotor grounding, (2) the circularity of verbal definition, (3) the mirroring of language production and comprehension, (4) iconicity in propositions at LLM scale, (5) computational counterparts of human categorical perception in category learning by neural nets, and perhaps also (6) a conjecture by Chomsky about the laws of thought. The exposition will be in the form of a dialogue with ChatGPT-4.
翻訳日:2024-02-06 21:17:30 公開日:2024-02-03
# 事前学習した視覚モデルのパラメータ効率の微調整:調査

Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey ( http://arxiv.org/abs/2402.02242v1 )

ライセンス: Link先を確認
Yi Xin, Siqi Luo, Haodi Zhou, Junlong Du, Xiaohong Liu, Yue Fan, Qing Li, Yuntao Du(参考訳) 大規模事前学習型視覚モデル(PVM)は、下流の視覚タスクにまたがる適応可能性を示す。 しかし、最先端のPVMが数十億または数兆のパラメータに成長するにつれ、計算とストレージの要求が高いため、標準のフルチューニングパラダイムは持続不可能になりつつある。 これに対し, パラメータ修正の最小化による完全微調整の性能を超越したパラメータ効率細調整(PEFT)を研究中である。 この調査は、visual peftの包括的な概要と今後の方向性を提供し、最新の進歩を体系的にレビューする。 まず,PEFTの形式的定義とモデル事前学習手法について議論する。 次に既存のメソッドを,加算ベース,部分ベース,統一ベースという3つのカテゴリに分類する。 最後に、一般的に使用されるデータセットとアプリケーションを紹介し、将来の研究課題を示唆する。 リソースの包括的なコレクションはhttps://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learningにある。

Large-scale pre-trained vision models (PVMs) have shown great potential for adaptability across various downstream vision tasks. However, with state-of-the-art PVMs growing to billions or even trillions of parameters, the standard full fine-tuning paradigm is becoming unsustainable due to high computational and storage demands. In response, researchers are exploring parameter-efficient fine-tuning (PEFT), which seeks to exceed the performance of full fine-tuning with minimal parameter modifications. This survey provides a comprehensive overview and future directions for visual PEFT, offering a systematic review of the latest advancements. First, we provide a formal definition of PEFT and discuss model pre-training methods. We then categorize existing methods into three categories: addition-based, partial-based, and unified-based. Finally, we introduce the commonly used datasets and applications and suggest potential future research challenges. A comprehensive collection of resources is available at https://github.com/synbol/Awesome-Parameter-Efficient-Transfer-Learning.
翻訳日:2024-02-06 21:17:00 公開日:2024-02-03
# 視覚言語モデルによる画像融合

Image Fusion via Vision-Language Model ( http://arxiv.org/abs/2402.02235v1 )

ライセンス: Link先を確認
Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, Luc Van Gool(参考訳) 画像融合は、複数のソース画像から重要な情報を単一のコンポジットに統合し、ハイライト構造とテクスチャを強調し、不完全な領域を精製する。 既存の手法は主に認識のためのピクセルレベルとセマンティックな視覚機能に焦点を当てている。 しかし、視覚を超えたテキストレベルでの深い意味情報の探索は不十分である。 そこで我々は,VIsion-Language Model (FILM) による画像融合という新しい融合パラダイムを初めて導入し,画像融合を導くために異なるソース画像の明示的なテキスト情報を利用する。 FILMでは、入力画像はまずセマンティックプロンプトを生成するために処理され、次にChatGPTに入力され、リッチなテキスト記述を得る。 これらの記述はテキスト領域で融合され、ソース画像からの重要な視覚的特徴の抽出をクロス・アテンションによってガイドする。 最後の融合画像は視覚特徴デコーダによって作成される。 このパラダイムは、赤外線可視化、医療、マルチ露光、マルチフォーカス画像融合の4つの画像融合タスクで満足できる結果を達成する。 また,ChatGPTに基づく4つの融合タスクにおける10の画像融合データセットについて,ChatGPTに基づく段落記述を含む視覚言語データセットを提案する。 コードとデータセットがリリースされる。

Image fusion integrates essential information from multiple source images into a single composite, emphasizing the highlighting structure and textures, and refining imperfect areas. Existing methods predominantly focus on pixel-level and semantic visual features for recognition. However, they insufficiently explore the deeper semantic information at a text-level beyond vision. Therefore, we introduce a novel fusion paradigm named image Fusion via vIsion-Language Model (FILM), for the first time, utilizing explicit textual information in different source images to guide image fusion. In FILM, input images are firstly processed to generate semantic prompts, which are then fed into ChatGPT to obtain rich textual descriptions. These descriptions are fused in the textual domain and guide the extraction of crucial visual features from the source images through cross-attention, resulting in a deeper level of contextual understanding directed by textual semantic information. The final fused image is created by vision feature decoder. This paradigm achieves satisfactory results in four image fusion tasks: infrared-visible, medical, multi-exposure, and multi-focus image fusion. We also propose a vision-language dataset containing ChatGPT-based paragraph descriptions for the ten image fusion datasets in four fusion tasks, facilitating future research in vision-language model-based image fusion. Code and dataset will be released.
翻訳日:2024-02-06 21:16:35 公開日:2024-02-03
# 差分プライバシーによるフェデレーション学習

Federated Learning with Differential Privacy ( http://arxiv.org/abs/2402.02230v1 )

ライセンス: Link先を確認
Adrien Banse, Jan Kreischer, Xavier Oliva i J\"urgens(参考訳) 分散機械学習の一種であるフェデレーション・ラーニング(fl)は、クライアントのプライベートデータを異なるパーティ間で共有することを著しく防ぐことができる。 それでも、クライアントからアップロードされたパラメータの重みを解析することで、プライベート情報を希釈することができる。 本稿では,クライアント数と差分プライバシ(DP)機構の追加が,モデルの性能に与える影響に関する実証的なベンチマークを示す。 この結果から,非i.dおよび小データセットは分散および微分プライベートな設定において,最も性能が低下していることがわかった。

Federated learning (FL), as a type of distributed machine learning, is capable of significantly preserving client's private data from being shared among different parties. Nevertheless, private information can still be divulged by analyzing uploaded parameter weights from clients. In this report, we showcase our empirical benchmark of the effect of the number of clients and the addition of differential privacy (DP) mechanisms on the performance of the model on different types of data. Our results show that non-i.i.d and small datasets have the highest decrease in performance in a distributed and differentially private setting.
翻訳日:2024-02-06 21:16:00 公開日:2024-02-03
# バニラ・ベイジアン、高次元の最適化を実現

Vanilla Bayesian Optimization Performs Great in High Dimension ( http://arxiv.org/abs/2402.02229v1 )

ライセンス: Link先を確認
Carl Hvarfner and Erik Orm Hellsten and Luigi Nardi(参考訳) 高次元問題はベイズ最適化アルゴリズムのアキレスのヒールと見なされてきた。 次元の呪いによって刺激されたアルゴリズムの大規模なコレクションは、目的に対して様々な単純化された仮定を課すことで、この設定においてよりパフォーマンスの高いものにすることを目的としている。 本稿では,バニラベイズ最適化が高次元タスクに不適合となるような不均一性を明らかにするとともに,既存のアルゴリズムがモデル複雑性を低減させるレンズを通してこれらの不均一性に対処する方法を示す。 さらに,バニラベイズ最適化アルゴリズムに典型的な従来の仮定の強化を提案し,目的に構造的制約を課すことなく,管理可能なレベルへの複雑性を低減する。 我々の修正 - 次元に先行するガウス過程の単純なスケーリング - により、標準的なベイズ最適化は、以前考えられていた高次元よりも大幅にうまく機能し、複数の一般的な実世界の高次元タスクにおいて既存の最先端アルゴリズムよりも明らかに優れていることが分かる。

High-dimensional problems have long been considered the Achilles' heel of Bayesian optimization algorithms. Spurred by the curse of dimensionality, a large collection of algorithms aim to make it more performant in this setting, commonly by imposing various simplifying assumptions on the objective. In this paper, we identify the degeneracies that make vanilla Bayesian optimization poorly suited to high-dimensional tasks, and further show how existing algorithms address these degeneracies through the lens of lowering the model complexity. Moreover, we propose an enhancement to the prior assumptions that are typical to vanilla Bayesian optimization algorithms, which reduces the complexity to manageable levels without imposing structural restrictions on the objective. Our modification - a simple scaling of the Gaussian process lengthscale prior with the dimensionality - reveals that standard Bayesian optimization works drastically better than previously thought in high dimensions, clearly outperforming existing state-of-the-art algorithms on multiple commonly considered real-world high-dimensional tasks.
翻訳日:2024-02-06 21:15:42 公開日:2024-02-03
# 出発点再考:協調事前学習による連合学習のパフォーマンスと公平性の向上

Rethinking the Starting Point: Enhancing Performance and Fairness of Federated Learning via Collaborative Pre-Training ( http://arxiv.org/abs/2402.02225v1 )

ライセンス: Link先を確認
Yun-Wei Chu, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher G. Brinton(参考訳) 既存のフェデレートラーニング(FL)手法の多くは、ランダムに初期化したモデルから訓練を開始すると仮定している。 近年,事前学習モデルの活用がFLに有利な初期化をもたらすことが実証されている。 本稿では,下流のflタスクにおいて適切な初期化を行うための事前学習モデルとして戦略的に設計する,共同事前学習手法であるcopreflを提案する。 我々の事前学習アルゴリズムの重要なアイデアは、下流の分散シナリオを模倣し、予期せぬflタスクに適応できるメタラーニング手順です。 CoPreFLの事前学習最適化手順は、知的初期化を通じて下流FLタスクにおけるこれらの競合する課題に対処することを目的として、平均性能と公平性のバランスを取る。 広範な実験結果から,本手法は下流のflタスクに対してロバストな初期化を提供し,その結果,平均性能が向上し,より公平な予測が可能となった。

Most existing federated learning (FL) methodologies have assumed training begins from a randomly initialized model. Recently, several studies have empirically demonstrated that leveraging a pre-trained model can offer advantageous initializations for FL. In this paper, we propose a collaborative pre-training approach, CoPreFL, which strategically designs a pre-trained model to serve as a good initialization for any downstream FL task. The key idea of our pre-training algorithm is a meta-learning procedure which mimics downstream distributed scenarios, enabling it to adapt to any unforeseen FL task. CoPreFL's pre-training optimization procedure also strikes a balance between average performance and fairness, with the aim of addressing these competing challenges in downstream FL tasks through intelligent initializations. Extensive experimental results validate that our pre-training method provides a robust initialization for any unseen downstream FL task, resulting in enhanced average performance and more equitable predictions.
翻訳日:2024-02-06 21:15:09 公開日:2024-02-03
# mspm:遠隔脈拍・呼吸・血圧推定のための多地点生理モニタリングデータセット

MSPM: A Multi-Site Physiological Monitoring Dataset for Remote Pulse, Respiration, and Blood Pressure Estimation ( http://arxiv.org/abs/2402.02224v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Benjamin Sporrer, Lu Niu, Patrick Flynn, Adam Czajka(参考訳) 可視光カメラは、被写体と物理的に接触することなく微妙な生理的バイオマーカーを捉えることができる。 生体上の複数の位置から同時カメラベースのバイタルサインを推定する研究を支援するために収集された最初のデータセットであるMSPMデータセットについて述べる。 MSPMは、リモート光胸腺撮影(rPPG)、呼吸速度、パルス通過時間(PTT)の研究を可能にする。 我々は、rPPG、呼吸速度、TTの研究を支援するMSPMの適合性を示す徹底的な実験を行った。 クロスデータセットrPPG実験により、MSPMは難しいが高品質なデータセットであり、データセット内パルスレートの平均絶対誤差(MAE)は4拍子/分(BPM)以下、クロスデータセットパルスレートMAEは2BPM以下であることが明らかになった。 呼吸実験では、胸部の動きの特徴を抽出し、1分間に1.09回の呼吸を行う。 PTT実験により, 遠隔PTTと接触測定TTとの間には高い相関関係がみられ, 将来のカメラによるTT研究の可能性が示唆された。

Visible-light cameras can capture subtle physiological biomarkers without physical contact with the subject. We present the Multi-Site Physiological Monitoring (MSPM) dataset, which is the first dataset collected to support the study of simultaneous camera-based vital signs estimation from multiple locations on the body. MSPM enables research on remote photoplethysmography (rPPG), respiration rate, and pulse transit time (PTT); it contains ground-truth measurements of pulse oximetry (at multiple body locations) and blood pressure using contacting sensors. We provide thorough experiments demonstrating the suitability of MSPM to support research on rPPG, respiration rate, and PTT. Cross-dataset rPPG experiments reveal that MSPM is a challenging yet high quality dataset, with intra-dataset pulse rate mean absolute error (MAE) below 4 beats per minute (BPM), and cross-dataset pulse rate MAE below 2 BPM in certain cases. Respiration experiments find a MAE of 1.09 breaths per minute by extracting motion features from the chest. PTT experiments find that across the pairs of different body sites, there is high correlation between remote PTT and contact-measured PTT, which facilitates the possibility for future camera-based PTT research.
翻訳日:2024-02-06 21:14:07 公開日:2024-02-03
# アフリカの機械知能:調査

Machine Intelligence in Africa: a survey ( http://arxiv.org/abs/2402.02218v1 )

ライセンス: Link先を確認
Allahsera Auguste Tapo and Ali Traore and Sidy Danioko and Hamidou Tembine(参考訳) 過去5年間で、アフリカ諸国で大規模なオーディオデータセットが利用可能になったことで、人間に近いマシンインテリジェンス(MI)技術を構築し、読み書きできない人を含む、地元の言語でビジネスを話し、学び、理解し、実行するための無制限の機会が開かれた。 残念なことに、これらのオーディオデータセットは現在のMIツールによって完全に利用されていない。 さらに、最先端のMIモデルの多くは文化を意識せず、採用指標の倫理は疑問視されている。 その欠如はアフリカにおける多くの応用の大きな欠点である。 本稿では,アフリカにおけるマシンインテリジェンスの発展を多層多層・文化意識の倫理的視点から概説し,MI研究,産業,政府行動,芸術,音楽,非公式経済,アフリカにおける中小企業などに関する400の論文を通じて,54のアフリカ諸国におけるMI利用事例を紹介する。 また、アフリカ大陸におけるMIランキングや指標の信頼性や、MIで使われる不明瞭な用語のアルゴリズム的定義に関する議論も開かれている。

In the last 5 years, the availability of large audio datasets in African countries has opened unlimited opportunities to build machine intelligence (MI) technologies that are closer to the people and speak, learn, understand, and do businesses in local languages, including for those who cannot read and write. Unfortunately, these audio datasets are not fully exploited by current MI tools, leaving several Africans out of MI business opportunities. Additionally, many state-of-the-art MI models are not culture-aware, and the ethics of their adoption indexes are questionable. The lack thereof is a major drawback in many applications in Africa. This paper summarizes recent developments in machine intelligence in Africa from a multi-layer multiscale and culture-aware ethics perspective, showcasing MI use cases in 54 African countries through 400 articles on MI research, industry, government actions, as well as uses in art, music, the informal economy, and small businesses in Africa. The survey also opens discussions on the reliability of MI rankings and indexes in the African continent as well as algorithmic definitions of unclear terms used in MI.
翻訳日:2024-02-06 21:13:23 公開日:2024-02-03
# CoFiNet: マルチスケールフィンスでカモフラージュされたオブジェクトを公開

CoFiNet: Unveiling Camouflaged Objects with Multi-Scale Finesse ( http://arxiv.org/abs/2402.02217v1 )

ライセンス: Link先を確認
Cunhan Guo and Heyan Huang(参考訳) camouflaged object detection (cod)は、軍事、産業、医療、監視の領域にまたがるアプリケーションを含む、隠されたオブジェクトの識別を目的としたコンピュータビジョンの重要な側面である。 細かなセグメンテーション効果の低い問題に対処するため、我々はCoFiNetと呼ばれるカモフラージュ物体検出の新しい手法を提案する。 本手法は主にマルチスケール特徴の融合と抽出に重点を置き,詳細な特徴のセグメンテーション効果に着目し,迷彩物体を効果的に検出する能力を高めた。 CoFiNetは粗大な戦略を採用している。 マルチスケールの機能統合モジュールは、コンテキスト機能を融合するモデルの能力を高めるために平均化される。 マルチアクティベーション選択型カーネルモジュールを利用して、モデルにその受容野を自律的に変更する機能を与え、異なるサイズの擬似オブジェクトに対して適切な受容野を選択的に選択できるようにする。 マスク生成では,画像分割のためのデュアルマスク戦略を用い,粗面と微細マスクの再構成を分離することで,詳細な学習能力を大幅に向上させる。 4つの異なるデータセットで総合的な実験を行い、CoFiNetがすべてのデータセットで最先端のパフォーマンスを達成することを示した。 CoFiNetの実験結果は、カモフラージュオブジェクト検出の有効性を裏付け、様々な応用シナリオにおいてその可能性を強調している。

Camouflaged Object Detection (COD) is a critical aspect of computer vision aimed at identifying concealed objects, with applications spanning military, industrial, medical and monitoring domains. To address the problem of poor detail segmentation effect, we introduce a novel method for camouflage object detection, named CoFiNet. Our approach primarily focuses on multi-scale feature fusion and extraction, with special attention to the model's segmentation effectiveness for detailed features, enhancing its ability to effectively detect camouflaged objects. CoFiNet adopts a coarse-to-fine strategy. A multi-scale feature integration module is laveraged to enhance the model's capability of fusing context feature. A multi-activation selective kernel module is leveraged to grant the model the ability to autonomously alter its receptive field, enabling it to selectively choose an appropriate receptive field for camouflaged objects of different sizes. During mask generation, we employ the dual-mask strategy for image segmentation, separating the reconstruction of coarse and fine masks, which significantly enhances the model's learning capacity for details. Comprehensive experiments were conducted on four different datasets, demonstrating that CoFiNet achieves state-of-the-art performance across all datasets. The experiment results of CoFiNet underscore its effectiveness in camouflage object detection and highlight its potential in various practical application scenarios.
翻訳日:2024-02-06 21:13:01 公開日:2024-02-03
# グラフ基礎モデル

Graph Foundation Models ( http://arxiv.org/abs/2402.02216v1 )

ライセンス: Link先を確認
Haitao Mao, Zhikai Chen, Wenzhuo Tang, Jianan Zhao, Yao Ma, Tong Zhao, Neil Shah, Michael Galkin, Jiliang Tang(参考訳) グラフ基礎モデル(GFM)は、グラフ領域における新しいトレンド研究トピックであり、異なるグラフやタスクを一般化可能なグラフモデルの開発を目指している。 しかし、汎用的なGFMはまだ達成されていない。 GFMを構築する上で重要な課題は、さまざまな構造パターンを持つグラフ間でポジティブな転送を可能にする方法である。 CVおよびNLPドメインの既存の基礎モデルに着想を得て,グラフ上の不変性を符号化する基本移動可能な単位である ` `graph vocabulary'' を提唱し,GFM開発の新たな視点を提案する。 我々は,ネットワーク解析,理論的基礎,安定性といった重要な側面からグラフ語彙の構成を基礎づける。 このような語彙的視点は、ニューラルスケーリング法則に従って将来のGFM設計を前進させる可能性がある。

Graph Foundation Model (GFM) is a new trending research topic in the graph domain, aiming to develop a graph model capable of generalizing across different graphs and tasks. However, a versatile GFM has not yet been achieved. The key challenge in building GFM is how to enable positive transfer across graphs with diverse structural patterns. Inspired by the existing foundation models in the CV and NLP domains, we propose a novel perspective for the GFM development by advocating for a ``graph vocabulary'', in which the basic transferable units underlying graphs encode the invariance on graphs. We ground the graph vocabulary construction from essential aspects including network analysis, theoretical foundations, and stability. Such a vocabulary perspective can potentially advance the future GFM design following the neural scaling laws.
翻訳日:2024-02-06 21:12:35 公開日:2024-02-03
# 文脈内学習のメカニズムに関するデータ生成の視点

A Data Generation Perspective to the Mechanism of In-Context Learning ( http://arxiv.org/abs/2402.02212v1 )

ライセンス: Link先を確認
Haitao Mao, Guangliang Liu, Yao Ma, Rongrong Wang, Jiliang Tang(参考訳) in-context learning(icl)は、大規模言語モデル(llm)にコンテキストで学習する能力を与え、勾配更新なしで下流の一般化を達成する。 実証的な成功を奨励しているにもかかわらず、ICLの基盤となるメカニズムはいまだ不明であり、既存の研究は様々な理解の視点を提供している。 これらの研究は直観的かつアドホックなicl解釈法を提案し、あいまいな道路図を導出する。 本稿では、データ生成の観点から最近の取り組みを再解釈し、体系的な角度に近づき、一般的な技術ソリューションの幅広い利用の可能性を示す。 概念的定義としては、スキル学習とスキル認識の用語を厳格に採用する。 両者の違いは、スキル学習がコンテキスト内データから新しいデータ生成関数を学習できることだ。 また、さまざまなソリューションのメリットと弱点を総合的に研究し、データ生成の観点からそれらの均一性を強調し、異なる研究ラインの強みを組み込むための将来の研究のための技術基盤を確立する。

In-Context Learning (ICL) empowers Large Language Models (LLMs) with the capacity to learn in context, achieving downstream generalization without gradient updates but with a few in-context examples. Despite the encouraging empirical success, the underlying mechanism of ICL remains unclear, and existing research offers various viewpoints of understanding. These studies propose intuition-driven and ad-hoc technical solutions for interpreting ICL, illustrating an ambiguous road map. In this paper, we leverage a data generation perspective to reinterpret recent efforts and demonstrate the potential broader usage of popular technical solutions, approaching a systematic angle. For a conceptual definition, we rigorously adopt the terms of skill learning and skill recognition. The difference between them is skill learning can learn new data generation functions from in-context data. We also provide a comprehensive study on the merits and weaknesses of different solutions, and highlight the uniformity among them given the perspective of data generation, establishing a technical foundation for future research to incorporate the strengths of different lines of research.
翻訳日:2024-02-06 21:12:22 公開日:2024-02-03
# Bosehedral: Bosonic量子コンピューティングのためのコンパイラ最適化

Bosehedral: Compiler Optimization for Bosonic Quantum Computing ( http://arxiv.org/abs/2402.02279v1 )

ライセンス: Link先を確認
Junyu Zhou, Yuhao Liu, Yunong Shi, Ali Javadi-Abhari, Gushu Li(参考訳) 無限次元量子モードに基づくボソニック量子コンピューティングは、古典的に難しい様々な実用的応用への期待を示している。 しかし、コンパイラ最適化の欠如は、その大きな可能性を妨げている。 本稿では,Bosonic量子ハードウェア上での(ガウス)ボーソンサンプリングのための効率的なコンパイラ最適化フレームワークであるBosehedralを紹介する。 Bosehedralは、コンパクトなユニタリ行列表現を用いてプログラム解析と最適化を高いアルゴリズムレベルで行うことで、無限次元のクモッドゲート行列を扱うという課題を克服している。 qumodeゲート分解と論理から物理へのqumodeマッピングを最適化し、可変確率ゲートドロップアウト法を導入する。 全体としてbosehedralは、元のプログラムをはるかに少ないゲートで正確に近似することにより、パフォーマンスを大幅に向上させる。 評価の結果,Bosehedral はプログラムサイズを大幅に削減できるが,高い近似精度を保ち,アプリケーションの性能向上に寄与することが示された。

Bosonic quantum computing, based on the infinite-dimensional qumodes, has shown promise for various practical applications that are classically hard. However, the lack of compiler optimizations has hindered its full potential. This paper introduces Bosehedral, an efficient compiler optimization framework for (Gaussian) Boson sampling on Bosonic quantum hardware. Bosehedral overcomes the challenge of handling infinite-dimensional qumode gate matrices by performing all its program analysis and optimizations at a higher algorithmic level, using a compact unitary matrix representation. It optimizes qumode gate decomposition and logical-to-physical qumode mapping, and introduces a tunable probabilistic gate dropout method. Overall, Bosehedral significantly improves the performance by accurately approximating the original program with much fewer gates. Our evaluation shows that Bosehedral can largely reduce the program size but still maintain a high approximation fidelity, which can translate to significant end-to-end application performance improvement.
翻訳日:2024-02-06 21:05:07 公開日:2024-02-03
# 外因性分布学習による因果ベイズ最適化

Causal Bayesian Optimization via Exogenous Distribution Learning ( http://arxiv.org/abs/2402.02277v1 )

ライセンス: Link先を確認
Shaogang Ren, Xiaoning Qian(参考訳) 構造的因果モデルにおける操作対象変数の最大化は重要な問題である。 既存の因果ベイズ最適化(CBO)手法は、報酬を最大化するために因果構造を変更するハード介入に依存するか、データ生成機構を調整して目的を達成するために内在変数にアクションノードを導入する。 本稿では, 既存手法の期待によって無視されるか, 限界化される外因性変数の分布を学習するために, 新たな手法を提案する。 外因性分布学習は、通常限られた観測データで訓練される代理モデルにおいて、構造化因果モデルの近似精度を向上させる。 さらに、学習した外因性分布は、既存のCBOを付加雑音モデル(ANM)を超えた一般的な因果関係に拡張する。 外因性変数のリカバリにより、ノイズや未観測の隠れ変数に対して、より柔軟な事前利用が可能になります。 学習した外因性分布を利用した新しいCBO法を開発した。 異なるデータセットとアプリケーションの実験により,提案手法の利点が示された。

Maximizing a target variable as an operational objective in a structured causal model is an important problem. Existing Causal Bayesian Optimization (CBO) methods either rely on hard interventions that alter the causal structure to maximize the reward; or introduce action nodes to endogenous variables so that the data generation mechanisms are adjusted to achieve the objective. In this paper, a novel method is introduced to learn the distribution of exogenous variables, which is typically ignored or marginalized through expectation by existing methods. Exogenous distribution learning improves the approximation accuracy of structured causal models in a surrogate model that is usually trained with limited observational data. Moreover, the learned exogenous distribution extends existing CBO to general causal schemes beyond Additive Noise Models (ANM). The recovery of exogenous variables allows us to use a more flexible prior for noise or unobserved hidden variables. A new CBO method is developed by leveraging the learned exogenous distribution. Experiments on different datasets and applications show the benefits of our proposed method.
翻訳日:2024-02-06 21:04:49 公開日:2024-02-03
# SudokuSens: 生成的アプローチによるIoTセンシングアプリケーションのためのディープラーニングロバストネス向上

SudokuSens: Enhancing Deep Learning Robustness for IoT Sensing Applications using a Generative Approach ( http://arxiv.org/abs/2402.02275v1 )

ライセンス: Link先を確認
Tianshi Wang, Jinyang Li, Ruijie Wang, Denizhan Kara, Shengzhong Liu, Davis Wertheimer, Antoni Viros-i-Martin, Raghu Ganti, Mudhakar Srivatsa, Tarek Abdelzaher(参考訳) 本稿では,機械学習に基づくIoT(Internet-of-Things)アプリケーションにおけるトレーニングデータの自動生成のための生成フレームワークであるSudokuSensを紹介する。 このフレームワークは、結果のディープラーニングモデルの堅牢性を改善し、データ収集が高価であるIoTアプリケーションを対象としている。 この研究は、IoTの時系列データが観測対象のシグネチャを周囲の環境に固有の性質と、経験した動的環境障害で絡み合わせることに動機づけられている。 そのため、IoTトレーニングデータに十分な多様性を組み込むためには、検討対象数と、そのようなオブジェクトに遭遇する可能性のある環境条件に乗じて、トレーニングケースの組合せ的爆発を考える必要がある。 私たちのフレームワークは、これらの乗法的なトレーニングニーズを大幅に削減します。 対象のシグネチャを環境条件から切り離すために,条件付き変分オートエンコーダ(cvae, conditional variational autoencoder)を用いる。 動的乱れに対する堅牢性を得るために、セッション対応の時間的コントラスト学習アプローチを採る。 前述の2つのアプローチを統合することで、SudokuSensはIoTアプリケーションのディープラーニングの堅牢性を大幅に向上する。 本研究では,SudokuSensが異なるデータセットの下流推論タスクにどのような効果をもたらすかを検討するとともに,アプローチが特に有効である条件について議論する。

This paper introduces SudokuSens, a generative framework for automated generation of training data in machine-learning-based Internet-of-Things (IoT) applications, such that the generated synthetic data mimic experimental configurations not encountered during actual sensor data collection. The framework improves the robustness of resulting deep learning models, and is intended for IoT applications where data collection is expensive. The work is motivated by the fact that IoT time-series data entangle the signatures of observed objects with the confounding intrinsic properties of the surrounding environment and the dynamic environmental disturbances experienced. To incorporate sufficient diversity into the IoT training data, one therefore needs to consider a combinatorial explosion of training cases that are multiplicative in the number of objects considered and the possible environmental conditions in which such objects may be encountered. Our framework substantially reduces these multiplicative training needs. To decouple object signatures from environmental conditions, we employ a Conditional Variational Autoencoder (CVAE) that allows us to reduce data collection needs from multiplicative to (nearly) linear, while synthetically generating (data for) the missing conditions. To obtain robustness with respect to dynamic disturbances, a session-aware temporal contrastive learning approach is taken. Integrating the aforementioned two approaches, SudokuSens significantly improves the robustness of deep learning for IoT applications. We explore the degree to which SudokuSens benefits downstream inference tasks in different data sets and discuss conditions under which the approach is particularly effective.
翻訳日:2024-02-06 21:04:32 公開日:2024-02-03
# Inception Capsule: Inception-ResnetとCapsuleNetによる画像分類

InceptionCapsule: Inception-Resnet and CapsuleNet with self-attention for medical image Classification ( http://arxiv.org/abs/2402.02274v1 )

ライセンス: Link先を確認
Elham Sadeghnezhad, Sajjad Salem(参考訳) 初期重み付けは、重みのランダムな選択が異なる出力を生成し、過度な適合と不適合の確率を高めるため、ディープニューラルネットワークにおいて重要である。 一方、ベクトル特徴を抽出するベクトルベースのアプローチはより正確な分類のためにリッチベクトルを必要とする。 InceptionCapsuleアプローチは、これらの2つの問題を緩和する。 このアプローチでは、Transfer LearningとInception-ResNetモデルを使用して、ImageNetから初期重みを取る重みのランダムな選択を回避する。 また、インセプション中間層の出力を使ってリッチベクタを生成する。 抽出されたベクトルは、注意技術を備えた学習用カプセルネットワークに与えられる。 kvasirデータとgtデータセットのbusiを用いてこのアプローチを評価した。 このモデルは5クラス分類で97.62の精度を達成することができ、8クラス分類で94.30の精度を達成することができた。 GTデータセットを用いたBUSIでは、提案手法は精度=98.88、精度=95.34、F1スコア=93.74を達成した。

Initial weighting is significant in deep neural networks because the random selection of weights produces different outputs and increases the probability of overfitting and underfitting. On the other hand, vector-based approaches to extract vector features need rich vectors for more accurate classification. The InceptionCapsule approach is presented to alleviate these two problems. This approach uses transfer learning and the Inception-ResNet model to avoid random selection of weights, which takes initial weights from ImageNet. It also uses the output of Inception middle layers to generate rich vectors. Extracted vectors are given to a capsule network for learning, which is equipped with an attention technique. Kvasir data and BUSI with the GT dataset were used to evaluate this approach. This model was able to achieve 97.62 accuracies in 5-class classification and also achieved 94.30 accuracies in 8-class classification on Kvasir. In the BUSI with GT dataset, the proposed approach achieved accuracy=98.88, Precision=95.34, and F1-score=93.74, which are acceptable results compared to other approaches in the literature.
翻訳日:2024-02-06 21:04:02 公開日:2024-02-03
# 新しい知識による連合学習 : 基礎,進歩,未来

Federated Learning with New Knowledge: Fundamentals, Advances, and Futures ( http://arxiv.org/abs/2402.02268v1 )

ライセンス: Link先を確認
Lixu Wang, Yang Zhao, Jiahua Dong, Ating Yin, Qinbin Li, Xiao Wang, Dusit Niyato, Qi Zhu(参考訳) Federated Learning(FL)は、プライバシ保護がますます重視される時代に急速に発展している、プライバシ保護の分散学習アプローチである。 この急激な開発トレンドは、現実世界におけるFLに対する新たな要求の継続的な出現とともに、非常に重要な問題、すなわち新しい知識によるフェデレートラーニングに焦点を合わせることにつながります。 ここでの最大の課題は、様々な新しい知識を既存のFLシステムに効果的に取り入れ、これらのシステムを進化させ、コストを削減し、寿命を延ばし、持続可能な開発を促進することである。 本稿では,新機能やタスク,モデル,アルゴリズムなど,flにおける新しい知識の主な源を体系的に定義する。 各ソースについて,既存のflシステムに新しい知識を組み込む方法について徹底的に分析・議論し,新しい知識の到着形態とタイミングが導入プロセスに与える影響について検討する。 さらに,シナリオの設定,効率,セキュリティなど,さまざまな要因を考慮して,FLの今後の方向性を新たな知識で包括的に議論する。 また、このトピックのための継続的に更新されたリポジトリがある。

Federated Learning (FL) is a privacy-preserving distributed learning approach that is rapidly developing in an era where privacy protection is increasingly valued. It is this rapid development trend, along with the continuous emergence of new demands for FL in the real world, that prompts us to focus on a very important problem: Federated Learning with New Knowledge. The primary challenge here is to effectively incorporate various new knowledge into existing FL systems and evolve these systems to reduce costs, extend their lifespan, and facilitate sustainable development. In this paper, we systematically define the main sources of new knowledge in FL, including new features, tasks, models, and algorithms. For each source, we thoroughly analyze and discuss how to incorporate new knowledge into existing FL systems and examine the impact of the form and timing of new knowledge arrival on the incorporation process. Furthermore, we comprehensively discuss the potential future directions for FL with new knowledge, considering a variety of factors such as scenario setups, efficiency, and security. There is also a continuously updating repository for this topic: https://github.com/conditionWang/FLNK.
翻訳日:2024-02-06 21:03:41 公開日:2024-02-03
# 任意距離を有する有限チャネルの歪み知覚トレードオフ特性

Characterization of the Distortion-Perception Tradeoff for Finite Channels with Arbitrary Metrics ( http://arxiv.org/abs/2402.02265v1 )

ライセンス: Link先を確認
Dror Freirich and Nir Weinberger and Ron Meir(参考訳) 人間によって検査される場合、再構成された信号は実際の信号と区別するべきではない。 一般的に、このような高い知覚品質は、高い再構成誤差の価格で得られ、その逆である。 本研究では,一般計量を知覚指標とし,任意の歪み行列として誘導されるワッサースタイン-$$ 距離について,有限アルファベットチャネル上のこの歪み知覚(dp)トレードオフについて検討する。 この設定では、DP関数と最適再構成の計算は、一連の線形プログラミング問題の解法と等価であることを示す。 本稿では,DP関数が知覚指数において一意に線形であるDPトレードオフの構造的特徴について述べる。 さらに,二元源の場合の閉形式表現も導出する。

Whenever inspected by humans, reconstructed signals should not be distinguished from real ones. Typically, such a high perceptual quality comes at the price of high reconstruction error, and vice versa. We study this distortion-perception (DP) tradeoff over finite-alphabet channels, for the Wasserstein-$1$ distance induced by a general metric as the perception index, and an arbitrary distortion matrix. Under this setting, we show that computing the DP function and the optimal reconstructions is equivalent to solving a set of linear programming problems. We provide a structural characterization of the DP tradeoff, where the DP function is piecewise linear in the perception index. We further derive a closed-form expression for the case of binary sources.
翻訳日:2024-02-06 21:03:18 公開日:2024-02-03
# mixnuts: 非線形混合分類器によるトレーニングフリー精度・ロバスト性バランス

MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers ( http://arxiv.org/abs/2402.02263v1 )

ライセンス: Link先を確認
Yatong Bai, Mo Zhou, Vishal M. Patel, Somayeh Sojoudi(参考訳) 逆のロバスト性は、しばしば劣化した精度の犠牲となり、ロバスト分類モデルの現実の応用を妨げる。 より良いトレードオフのためのトレーニングベースのソリューションは、すでに訓練済みの高性能な大規模モデルとの非互換性によって制限される。 頑健なモデルが、清潔で敵対的なデータ上の誤ったモデルよりも正確な予測に自信があることを観察し、この「良質な信頼性特性」を増幅することで、アンサンブル設定における正確性と堅牢性を再現できると推測する。 そこで本研究では,ロバスト分類器と標準非ロバスト分類器の出力ロジットを3つのパラメータしか持たない非線形変換によって処理し,効率的なアルゴリズムで最適化する,トレーニングフリーな手法であるmixednutsを提案する。 MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。 CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの大幅な精度向上とほぼSOTAロバスト性を示すカスタムの強力なアダプティブアタックによる実験結果が示されており、CIFAR-100のクリーン精度を7.86ポイント向上させ、ロバストな精度でわずか0.87ポイントを犠牲にしている。

Adversarial robustness often comes at the cost of degraded accuracy, impeding the real-life application of robust classification models. Training-based solutions for better trade-offs are limited by incompatibilities with already-trained high-performance large models, necessitating the exploration of training-free ensemble approaches. Observing that robust models are more confident in correct predictions than in incorrect ones on clean and adversarial data alike, we speculate amplifying this "benign confidence property" can reconcile accuracy and robustness in an ensemble setting. To achieve so, we propose "MixedNUTS", a training-free method where the output logits of a robust classifier and a standard non-robust classifier are processed by nonlinear transformations with only three parameters, which are optimized through an efficient algorithm. MixedNUTS then converts the transformed logits into probabilities and mixes them as the overall output. On CIFAR-10, CIFAR-100, and ImageNet datasets, experimental results with custom strong adaptive attacks demonstrate MixedNUTS's vastly improved accuracy and near-SOTA robustness -- it boosts CIFAR-100 clean accuracy by 7.86 points, sacrificing merely 0.87 points in robust accuracy.
翻訳日:2024-02-06 21:03:06 公開日:2024-02-03
# データ品質の問題:RoBERTa-CNNモデルを用いたソーシャルメディア投稿における自殺意図検出

Data Quality Matters: Suicide Intention Detection on Social Media Posts Using a RoBERTa-CNN Model ( http://arxiv.org/abs/2402.02262v1 )

ライセンス: Link先を確認
Emily Lin, Jian Sun, Hsingyu Chen, and Mohammad H. Mahoor(参考訳) 自殺は、早期発見と介入のための革新的なアプローチを緊急に必要としている健康分野における世界的な健康上の懸念である。 本稿では,自殺監視Reddit投稿における自殺意図の同定に焦点をあて,RoBERTa(Robustly Optimization BERT)の変種である最先端RoBERTa-CNNモデルを用いた自殺検知の新しいアプローチを提案する。 RoBERTaは、テキスト分類や感情分析など、さまざまな自然言語処理(NLP)タスクに使用されている。 RoBERTaの有効性は、テキスト情報を取得し、テキスト内の意味関係を形成する能力にある。 オリジナルのモデルに畳み込みニューラルネットワーク(CNN)レイヤを追加することで、RoBERTaは重いデータセットから重要なパターンをキャプチャする能力を高める。 RoBERTa-CNNを評価するために,自殺・抑うつ検出データセットの実験を行い,その結果を得た。 例えば、RoBERTa-CNNは標準偏差0.0009で98%の平均精度を達成する。 97.5%以上のauc値に達し、std 0.0013である。 一方、RoBERTa-CNNは、自殺意図のためのニュアンス言語パターンを捕捉する堅牢性と能力を実証し、競争的手法より優れている。 そのため、RoBERTa-CNNはテキストデータ上で自殺意図を極めてよく検出できる。

Suicide remains a global health concern for the field of health, which urgently needs innovative approaches for early detection and intervention. In this paper, we focus on identifying suicidal intentions in SuicideWatch Reddit posts and present a novel approach to suicide detection using the cutting-edge RoBERTa-CNN model, a variant of RoBERTa (Robustly optimized BERT approach). RoBERTa is used for various Natural Language Processing (NLP) tasks, including text classification and sentiment analysis. The effectiveness of the RoBERTa lies in its ability to capture textual information and form semantic relationships within texts. By adding the Convolution Neural Network (CNN) layer to the original model, the RoBERTa enhances its ability to capture important patterns from heavy datasets. To evaluate the RoBERTa-CNN, we experimented on the Suicide and Depression Detection dataset and obtained solid results. For example, RoBERTa-CNN achieves 98% mean accuracy with the standard deviation (STD) of 0.0009. It also reaches over 97.5% mean AUC value with an STD of 0.0013. In the meanwhile, RoBERTa-CNN outperforms competitive methods, demonstrating the robustness and ability to capture nuanced linguistic patterns for suicidal intentions. Therefore, RoBERTa-CNN can detect suicide intention on text data very well.
翻訳日:2024-02-06 21:02:39 公開日:2024-02-03
# XTSFormer: 時間イベント予測のためのクロステンポラリスケールトランス

XTSFormer: Cross-Temporal-Scale Transformer for Irregular Time Event Prediction ( http://arxiv.org/abs/2402.02258v1 )

ライセンス: Link先を確認
Tingsong Xiao, Zelin Xu, Wenchong He, Jim Su, Yupu Zhang, Raymond Opoku, Ronald Ison, Jason Petho, Jiang Bian, Patrick Tighe, Parisa Rashidi, Zhe Jiang(参考訳) イベント予測は、過去のイベントシーケンスに基づいて、将来のイベントの時間とタイプを予測することを目的としている。 その重要性にもかかわらず、連続するイベント間の時間間隔の不規則性、周期性、複数スケールのイベント相互作用の存在、および長いイベントシーケンスに対する高い計算コストなど、いくつかの課題が存在する。 既存のニューラル・テンポラル・ポイント・プロセス(TPP)法は、臨床イベントデータのような現実の多くの応用で一般的なイベント相互作用のマルチスケールの性質を捉えない。 これらの問題に対処するため,不規則な時間的イベントデータを対象としたクロステンポラリスケールトランスフォーマ (XTSFormer) を提案する。 本モデルでは,時間周期の性質を包括的に捉えた特徴に基づく周期的時間位置エンコーディング(FCPE)と,階層的マルチスケールの時間的注意機構の2つの重要な要素からなる。 これらのスケールはボトムアップクラスタリングアルゴリズムによって決定される。 いくつかの実世界のデータセットに対する大規模な実験により、我々のXTSFormerは予測性能においていくつかのベースライン法より優れていることが示された。

Event prediction aims to forecast the time and type of a future event based on a historical event sequence. Despite its significance, several challenges exist, including the irregularity of time intervals between consecutive events, the existence of cycles, periodicity, and multi-scale event interactions, as well as the high computational costs for long event sequences. Existing neural temporal point processes (TPPs) methods do not capture the multi-scale nature of event interactions, which is common in many real-world applications such as clinical event data. To address these issues, we propose the cross-temporal-scale transformer (XTSFormer), designed specifically for irregularly timed event data. Our model comprises two vital components: a novel Feature-based Cycle-aware Time Positional Encoding (FCPE) that adeptly captures the cyclical nature of time, and a hierarchical multi-scale temporal attention mechanism. These scales are determined by a bottom-up clustering algorithm. Extensive experiments on several real-world datasets show that our XTSFormer outperforms several baseline methods in prediction performance.
翻訳日:2024-02-06 21:02:16 公開日:2024-02-03
# 大規模言語モデルのサイズ, 学習データ量, 読み出し時間に対する素人のフィットの逆相関の頻度による説明

Frequency Explains the Inverse Correlation of Large Language Models' Size, Training Data Amount, and Surprisal's Fit to Reading Times ( http://arxiv.org/abs/2402.02255v1 )

ライセンス: Link先を確認
Byung-Doh Oh, Shisen Yue, William Schuler(参考訳) 最近の研究では、トランスフォーマティブベースの言語モデルがより大きくなり、非常に大量のデータに基づいてトレーニングされるにつれて、その推定値が自然主義的な人間の読書時間に適合することが示されている。 現在の研究は、単語頻度がこれらの2つの傾向の根底にある重要な説明要因であることを示す一連の分析結果を示している。 第一に、4つのコーパス上の4つの言語モデルファミリーの残差誤差は、モデルサイズと読解時間との逆相関が、より大きいモデル変異の過度に正確な予測によって駆動される最小頻度単語のサブセット上で最強であることを示している。 さらに、トレーニングダイナミクスは、後続のトレーニングステップの間、すべてのモデル変種が希少な単語を予測することを学習し、より大きなモデル変種がより正確に行うことを明らかにし、トレーニングデータ量とモデルサイズの両方が読み出し時間に適合する有害な影響を説明する。 最後に、機能帰属分析により、より大きいモデル変種は、効果的に長いコンテキストウィンドウサイズと、より小さなモデル変種と比較して強い局所関係の両方に基づいて、レアワードを正確に予測できることが示される。 これらの結果から,トランスフォーマーに基づく言語モデルの推定は,稀な単語を予測するために学習する超人的な複雑な関連性により,人間的な期待から逸脱することが示唆された。

Recent studies have shown that as Transformer-based language models become larger and are trained on very large amounts of data, the fit of their surprisal estimates to naturalistic human reading times degrades. The current work presents a series of analyses showing that word frequency is a key explanatory factor underlying these two trends. First, residual errors from four language model families on four corpora show that the inverse correlation between model size and fit to reading times is the strongest on the subset of least frequent words, which is driven by excessively accurate predictions of larger model variants. Additionally, training dynamics reveal that during later training steps, all model variants learn to predict rare words and that larger model variants do so more accurately, which explains the detrimental effect of both training data amount and model size on fit to reading times. Finally, a feature attribution analysis demonstrates that larger model variants are able to accurately predict rare words based on both an effectively longer context window size as well as stronger local associations compared to smaller model variants. Taken together, these results indicate that Transformer-based language models' surprisal estimates diverge from human-like expectations due to the superhumanly complex associations they learn for predicting rare words.
翻訳日:2024-02-06 21:01:54 公開日:2024-02-03
# 教師学習に基づく無線通信における低複雑性リレー選択

Teacher-Student Learning based Low Complexity Relay Selection in Wireless Powered Communications ( http://arxiv.org/abs/2402.02254v1 )

ライセンス: Link先を確認
Aysun Gurur Onalan, Berkay Kopru, Sinem Coleri(参考訳) RF-EH(Radio Frequency Energy Harvesting, RF-EH)ネットワークは、制御可能で長距離のエネルギー伝達をエネルギー制限デバイスに提供することにより、巨大なインターネットの有効化の鍵となる。 リレーは、エネルギーまたは情報転送の助けとなり、これらのネットワークの性能を大幅に改善することが実証されている。 本稿では,非線形EH条件下での複数ソース中継RF-EHネットワークにおける連系選択,スケジューリング,電力制御問題について検討する。 まず、与えられたリレー選択に対するスケジューリングと電力制御の問題に対する最適解を得る。 次に、リレー選択問題を分類問題として定式化し、2つの畳み込みニューラルネットワーク(CNN)に基づくアーキテクチャを提案する。 第1のアーキテクチャは従来の2d畳み込みブロックを採用し、レイヤ間の接続をスキップする利点があるが、第2のアーキテクチャは2d畳み込みブロックをインセプションブロックに置き換え、メモリ制約されたアプリケーションの精度を犠牲にすることなく、トレーニング可能なパラメータサイズを削減する。 さらに、実行時の複雑さを減らし、教師ネットワークが大きくなるように教師学生学習を採用し、教師の知識を蒸留するCNNベースの小型アーキテクチャを学生に提供する。 学生ネットワークの最適なアーキテクチャを決定するために,新しいdichotomous search-based algorithmを用いた。 シミュレーションの結果,提案手法は最適性を損なうことなく,最先端の反復的アプローチよりも複雑性が低いことがわかった。

Radio Frequency Energy Harvesting (RF-EH) networks are key enablers of massive Internet-of-things by providing controllable and long-distance energy transfer to energy-limited devices. Relays, helping either energy or information transfer, have been demonstrated to significantly improve the performance of these networks. This paper studies the joint relay selection, scheduling, and power control problem in multiple-source-multiple-relay RF-EH networks under nonlinear EH conditions. We first obtain the optimal solution to the scheduling and power control problem for the given relay selection. Then, the relay selection problem is formulated as a classification problem, for which two convolutional neural network (CNN) based architectures are proposed. While the first architecture employs conventional 2D convolution blocks and benefits from skip connections between layers; the second architecture replaces them with inception blocks, to decrease trainable parameter size without sacrificing accuracy for memory-constrained applications. To decrease the runtime complexity further, teacher-student learning is employed such that the teacher network is larger, and the student is a smaller size CNN-based architecture distilling the teacher's knowledge. A novel dichotomous search-based algorithm is employed to determine the best architecture for the student network. Our simulation results demonstrate that the proposed solutions provide lower complexity than the state-of-art iterative approaches without compromising optimality.
翻訳日:2024-02-06 21:01:26 公開日:2024-02-03
# linked open dataによるデジタル双子のコラボレーション:fiwareを用いたアーキテクチャ

Collaboration of Digital Twins through Linked Open Data: Architecture with FIWARE as Enabling Technology ( http://arxiv.org/abs/2402.02252v1 )

ライセンス: Link先を確認
Javier Conde, Andres Munoz-Arcentales, \'Alvaro Alonso, Gabriel Huecas, Joaqu\'in Salvach\'ua(参考訳) デジタルツイン(digital twin)と呼ばれる現実世界と仮想世界のコラボレーションは、多くのユースケースで成功しているトレンドとなっている。 しかし、文献には解決すべき課題がある。 最も重要な問題の1つは、デジタル双生児の標準化の欠如による協力の困難さである。 この記事では、あらゆる分野においてDigital Twinsを構築するためのFIWAREコンポーネントに基づいた汎用アーキテクチャを提案する以前の研究を継続する。 本稿では,デジタル双生児のコミュニケーションを促進するメカニズムとしてLinked Open Dataを提案する。 我々は、駐車場のDigital Twinと協調する都市デジタルツインのユースケースで提案提案を検証した。 FIWAREエコシステムと組み合わせたLinked Open Dataは、Digital Twinsをデプロイし、Digital Twins間のコラボレーションを可能にするための真のリファレンスオプションである、と結論付けています。

The collaboration of the real world and the virtual world, known as Digital Twin, has become a trend with numerous successful use cases. However, there are challenges mentioned in the literature that must be addressed. One of the most important issues is the difficulty of collaboration of Digital Twins due to the lack of standardization in their implementation. This article continues a previous work that proposed a generic architecture based on the FIWARE components to build Digital Twins in any field. Our work proposes the use of Linked Open Data as a mechanism to facilitate the communication of Digital Twins. We validate our proposal with a use case of an urban Digital Twin that collaborates with a parking Digital Twin. We conclude that Linked Open Data in combination with the FIWARE ecosystem is a real reference option to deploy Digital Twins and to enable the collaboration between Digital Twins.
翻訳日:2024-02-06 21:01:01 公開日:2024-02-03
# バイナリ分類器を予算で比較すると、量の方が品質に勝る

Don't Label Twice: Quantity Beats Quality when Comparing Binary Classifiers on a Budget ( http://arxiv.org/abs/2402.02249v1 )

ライセンス: Link先を確認
Florian E. Dorner and Moritz Hardt(参考訳) 2つのバイナリ分類器の精度を比較するために,雑音ラベルの予算を最大限に活用する方法を検討する。 特定のデータポイントの複数のノイズラベルを、多数決によってよりノイズの少ないラベルに集めて集約するのは、一般的なプラクティスです。 我々は従来の知恵に逆らう定理を証明する。 2つの分類器のより良い部分を特定することが目的ならば、より多くのサンプルを収集するために1つのラベルを集めるのに予算を費やすのが最善であることを示す。 我々の結果はCram\'erの定理の非自明な応用、すなわち大きな偏差の理論における基礎から導かれる。 我々は、機械学習ベンチマークの設計における我々の仕事の意義について論じる。 さらに,本実験の結果は,Hoeffding の有界値よりも優れたサンプルサイズ境界を与える。

We study how to best spend a budget of noisy labels to compare the accuracy of two binary classifiers. It's common practice to collect and aggregate multiple noisy labels for a given data point into a less noisy label via a majority vote. We prove a theorem that runs counter to conventional wisdom. If the goal is to identify the better of two classifiers, we show it's best to spend the budget on collecting a single label for more samples. Our result follows from a non-trivial application of Cram\'er's theorem, a staple in the theory of large deviations. We discuss the implications of our work for the design of machine learning benchmarks, where they overturn some time-honored recommendations. In addition, our results provide sample size bounds superior to what follows from Hoeffding's bound.
翻訳日:2024-02-06 21:00:46 公開日:2024-02-03
# ExTTNet:請求書画像から表テキストを抽出するディープラーニングアルゴリズム

ExTTNet: A Deep Learning Algorithm for Extracting Table Texts from Invoice Images ( http://arxiv.org/abs/2402.02246v1 )

ライセンス: Link先を確認
Adem Akdo\u{g}an and Murat Kurt(参考訳) 本研究では, 請求書内の製品表を, ExTTNet という深層学習モデルを用いて自律的に取得する。 まず、光学式文字認識(OCR)技術を用いて、請求書画像からテキストを得る。 この処理にはテッセラクトOCRエンジン[37]が使用される。 その後、特徴抽出法を用いて精度を向上させることにより、既存の特徴数を増加させる。 OCRの結果得られた各テキストがテーブル要素であるか否かに応じてラベル処理を行う。 本研究では,多層人工ニューラルネットワークモデルを用いた。 トレーニングはnvidia rtx 3090グラフィックカードで行われており、162ドルを要した。 トレーニングの結果、F1スコアは0.92ドルとなった。

In this work, product tables in invoices are obtained autonomously via a deep learning model, which is named as ExTTNet. Firstly, text is obtained from invoice images using Optical Character Recognition (OCR) techniques. Tesseract OCR engine [37] is used for this process. Afterwards, the number of existing features is increased by using feature extraction methods to increase the accuracy. Labeling process is done according to whether each text obtained as a result of OCR is a table element or not. In this study, a multilayer artificial neural network model is used. The training has been carried out with an Nvidia RTX 3090 graphics card and taken $162$ minutes. As a result of the training, the F1 score is $0.92$.
翻訳日:2024-02-06 21:00:18 公開日:2024-02-03
# 擬似音声を用いた低音源音声認識における正の伝達予測

Predicting positive transfer for improved low-resource speech recognition using acoustic pseudo-tokens ( http://arxiv.org/abs/2402.02302v1 )

ライセンス: Link先を確認
Nay San, Georgios Paraskevopoulos, Aryaman Arora, Xiluo He, Prabhjot Kaur, Oliver Adams, Dan Jurafsky(参考訳) wav2vec 2.0 XLSR-128のような多言語音声モデルは、自動音声認識(ASR)のために直接微調整することができるが、ダウンストリーム性能は、事前学習データで表現されていない言語では比較的貧弱である。 これらの言語で70~200時間の未書き言葉の事前学習を続けることは、助けになるが、それほど多くのデータが記録されていない言語はどうだろう? このような場合、ターゲット言語を同等の高リソースな'ドナー'言語からのデータで補うことが有効であることを示す。 例えば、60時間のドナー・ヒンディーニを補足したわずか10時間の低リソースパンジャービでの事前訓練は、70時間のパンジャービでの事前訓練とほぼ同等である。 対照的に、Bengaliのような類似の少ないドナーからのデータをソーシングしても、ASRのパフォーマンスは向上しない。 ドナー言語選択を知らせるために,誘導音響単位の系列分布に基づく新しい類似度指標,音響トークン分布類似度(atds)を提案する。 類型的に異なる対象言語(パンジャービ語、ガリシア語、イバン語、セツワナ語)の全体にわたって、対象言語とその候補ドナー間のATDSがターゲット言語ASRの性能を正確に予測していることを示す。

While massively multilingual speech models like wav2vec 2.0 XLSR-128 can be directly fine-tuned for automatic speech recognition (ASR), downstream performance can still be relatively poor on languages that are under-represented in the pre-training data. Continued pre-training on 70-200 hours of untranscribed speech in these languages can help -- but what about languages without that much recorded data? For such cases, we show that supplementing the target language with data from a similar, higher-resource 'donor' language can help. For example, continued pre-training on only 10 hours of low-resource Punjabi supplemented with 60 hours of donor Hindi is almost as good as continued pretraining on 70 hours of Punjabi. By contrast, sourcing data from less similar donors like Bengali does not improve ASR performance. To inform donor language selection, we propose a novel similarity metric based on the sequence distribution of induced acoustic units: the Acoustic Token Distribution Similarity (ATDS). Across a set of typologically different target languages (Punjabi, Galician, Iban, Setswana), we show that the ATDS between the target language and its candidate donors precisely predicts target language ASR performance.
翻訳日:2024-02-06 20:52:34 公開日:2024-02-03
# AI強化サイドチャネル解析のレビューと比較

A Review and Comparison of AI Enhanced Side Channel Analysis ( http://arxiv.org/abs/2402.02299v1 )

ライセンス: Link先を確認
Max Panoff, Honggang Yu, Haoqi Shan, Yier Jin(参考訳) サイドチャネル分析(SCA)は、現代のコンピューティングシステムにおけるプライバシーとセキュリティに対する明確な脅威である。 ほとんどの通信は暗号アルゴリズムによって保護されている。 これらのアルゴリズムは、暗号的な観点からは、しばしば確実に安全であるが、実際のハードウェア上での実装は、脆弱性をもたらす。 管理者はこれらの脆弱性を利用してSCAを実行し、シークレットキーや内部状態などの機密情報を復元することができる。 SCAの脅威は機械学習によって大幅に増大し、特にディープラーニングでは攻撃の強化が一般的になっている。 本稿では,最先端の深層学習手法であるサイドチャネル解析,その背後にある理論,それらの実行方法について検討する。 我々は、ディープラーニング技術を用いたプロファイリング攻撃に焦点を当てるが、非目立った攻撃、人工的トレース生成など、ディープラーニング技術によって強化された新しい方法論についても検討する。 最後に、ANSSI SCA Database(ASCAD)に対して異なる深層学習拡張SCAスキームを試み、それらの相対性能を評価し比較する。 これにより、最新のSCA攻撃に対して暗号化実装をセキュアにするための新しい研究の方向性が導かれる。

Side Channel Analysis (SCA) presents a clear threat to privacy and security in modern computing systems. The vast majority of communications are secured through cryptographic algorithms. These algorithms are often provably-secure from a cryptographical perspective, but their implementation on real hardware introduces vulnerabilities. Adversaries can exploit these vulnerabilities to conduct SCA and recover confidential information, such as secret keys or internal states. The threat of SCA has greatly increased as machine learning, and in particular deep learning, enhanced attacks become more common. In this work, we will examine the latest state-of-the-art deep learning techniques for side channel analysis, the theory behind them, and how they are conducted. Our focus will be on profiling attacks using deep learning techniques, but we will also examine some new and emerging methodologies enhanced by deep learning techniques, such as non-profiled attacks, artificial trace generation, and others. Finally, different deep learning enhanced SCA schemes attempted against the ANSSI SCA Database (ASCAD) and their relative performance will be evaluated and compared. This will lead to new research directions to secure cryptographic implementations against the latest SCA attacks.
翻訳日:2024-02-06 20:52:07 公開日:2024-02-03
# Polyp-DAM:Deep Any ModelによるPolypセグメンテーション

Polyp-DAM: Polyp segmentation via depth anything model ( http://arxiv.org/abs/2402.02298v1 )

ライセンス: Link先を確認
Zhuoran Zheng and Chen Wu and Wei Wang and Yeying Jin and Xiuyi Jia(参考訳) 最近、大きなモデル(Segment Anything Model)が登場し、Polypセグメンテーションタスクのための新しいベースラインを提供するようになった。 これにより、十分なイメージレベルを優先した大きなモデルが、与えられたタスクで有望なパフォーマンスを達成できることが示される。 本稿では,ポリプセグメンテーションモデルに先立って深度を提供するためにDAM(Depth Anything Model)を活用することで,ポリプセグメンテーションモデリングの新しい視点を開拓する。 具体的には、入力ポリプ画像が最初に凍結DAMを通過して深度マップを生成する。 深度マップと入力されたポリプ画像は結合され、マルチスケールの畳み込みニューラルネットワークに供給され、セグメント化された画像を生成する。 広範な実験結果から,提案手法の有効性が示され,ノイズのあるポリープ画像でも良好に機能することを確認した。 コードのURLは \url{https://github.com/zzr-idam/Polyp-DAM} です。

Recently, large models (Segment Anything model) came on the scene to provide a new baseline for polyp segmentation tasks. This demonstrates that large models with a sufficient image level prior can achieve promising performance on a given task. In this paper, we unfold a new perspective on polyp segmentation modeling by leveraging the Depth Anything Model (DAM) to provide depth prior to polyp segmentation models. Specifically, the input polyp image is first passed through a frozen DAM to generate a depth map. The depth map and the input polyp images are then concatenated and fed into a convolutional neural network with multiscale to generate segmented images. Extensive experimental results demonstrate the effectiveness of our method, and in addition, we observe that our method still performs well on images of polyps with noise. The URL of our code is \url{https://github.com/zzr-idam/Polyp-DAM}.
翻訳日:2024-02-06 20:51:49 公開日:2024-02-03
# 非線形系の拡散に基づく騒音制御

Denoising Diffusion-Based Control of Nonlinear Systems ( http://arxiv.org/abs/2402.02297v1 )

ライセンス: Link先を確認
Karthik Elamvazhuthi, Darshan Gadginmath, Fabio Pasqualetti(参考訳) 本稿では,非線形力学系を制御するために,拡散確率モデル(DDPM)に基づく新しい手法を提案する。 DDPMは様々なサンプリングタスクで成功を収めた生成モデルの最先端技術である。 本フレームワークでは,制御系制約下でのターゲットセットからサンプルを描画する生成タスクとして,フィードバック制御問題を提起する。 ddpmsの前進過程は、ノイズを付加して目標セットから発生する軌道を構成する。 我々は、端末状態がターゲットセットに属するように、動的システムを逆向きに制御することを学ぶ。 ドリフトのない制御随伴系では、制御系が制御可能性のリーブラケットに基づく条件が成立するたびに、フォワードプロセスの軌道を逆方向に正確に追跡できることが証明される。 種々の非線形系に対するアプローチを数値的に研究し,理論結果の検証を行った。 また、物理エンジンの理論的結果を超える場合の数値実験も行います。

We propose a novel approach based on Denoising Diffusion Probabilistic Models (DDPMs) to control nonlinear dynamical systems. DDPMs are the state-of-art of generative models that have achieved success in a wide variety of sampling tasks. In our framework, we pose the feedback control problem as a generative task of drawing samples from a target set under control system constraints. The forward process of DDPMs constructs trajectories originating from a target set by adding noise. We learn to control a dynamical system in reverse such that the terminal state belongs to the target set. For control-affine systems without drift, we prove that the control system can exactly track the trajectory of the forward process in reverse, whenever the the Lie bracket based condition for controllability holds. We numerically study our approach on various nonlinear systems and verify our theoretical results. We also conduct numerical experiments for cases beyond our theoretical results on a physics-engine.
翻訳日:2024-02-06 20:51:32 公開日:2024-02-03
# 球面データの良さとクラスタリング: R と Python の QuadratiK パッケージ

Goodness-of-Fit and Clustering of Spherical Data: the QuadratiK package in R and Python ( http://arxiv.org/abs/2402.02290v1 )

ライセンス: Link先を確認
Giovanni Saraceno and Marianthi Markatou and Raktim Mukhopadhyay and Mojgan Golzy(参考訳) 本稿では,革新的なデータ解析手法を取り入れたQuadratiKパッケージを紹介する。 提示されたソフトウェアはRとPythonの両方で実装されており、カーネルベースの二次距離を用いて、適合性テストとクラスタリングの包括的なセットを提供し、統計学と機械学習の文献間のギャップを埋める。 我々のソフトウェアは適合性の良さのために1,2,kサンプルテストを実装し、確率分布の適合性を評価するための効率的で数学的に正しい方法を提供する。 ソフトウェアの拡張機能には,Poissonカーネル密度に基づく$d$-dimensional Sphereの均一性テストと,Poissonカーネル密度からランダムサンプルを生成するアルゴリズムが含まれる。 特に注目すべきは、球面上のポアソンカーネルに基づく密度の混合を利用する球面データに特化されたユニークなクラスタリングアルゴリズムの導入である。 これに加えて,ユーザによる検証を支援するグラフィカル機能や,クラスタリング結果の可視化と表現も追加しています。 これにより解析の解釈性とユーザビリティが向上する。 結論として、当社のRとPythonパッケージは強力なツールセットとして機能し、研究者や実践者がデータを深く掘り下げ、堅牢な推論を描き、幅広い分野にわたって潜在的に影響のある分析と推論を行う手段を提供します。

We introduce the QuadratiK package that incorporates innovative data analysis methodologies. The presented software, implemented in both R and Python, offers a comprehensive set of goodness-of-fit tests and clustering techniques using kernel-based quadratic distances, thereby bridging the gap between the statistical and machine learning literatures. Our software implements one, two and k-sample tests for goodness of fit, providing an efficient and mathematically sound way to assess the fit of probability distributions. Expanded capabilities of our software include supporting tests for uniformity on the $d$-dimensional Sphere based on Poisson kernel densities, and algorithms for generating random samples from Poisson kernel densities. Particularly noteworthy is the incorporation of a unique clustering algorithm specifically tailored for spherical data that leverages a mixture of Poisson-kernel-based densities on the sphere. Alongside this, our software includes additional graphical functions, aiding the users in validating, as well as visualizing and representing clustering results. This enhances interpretability and usability of the analysis. In summary, our R and Python packages serve as a powerful suite of tools, offering researchers and practitioners the means to delve deeper into their data, draw robust inference, and conduct potentially impactful analyses and inference across a wide array of disciplines.
翻訳日:2024-02-06 20:51:18 公開日:2024-02-03
# SemPool: 言語モデルを強化するためのシンプルで堅牢で解釈可能なKGプール

SemPool: Simple, robust, and interpretable KG pooling for enhancing language models ( http://arxiv.org/abs/2402.02289v1 )

ライセンス: Link先を確認
Costas Mavromatis, Petros Karypis, George Karypis(参考訳) 知識グラフ(KG)を用いた質問応答(QA)は、言語意味論と知識事実に関する複雑な推論を行う。 グラフニューラルネットワーク(GNN)は、与えられた質問に対する効果的な推論のために、言語モデル(LM)と組み合わせた基礎となるKGから情報を収集することを学ぶ。 しかし、GNNベースのQA手法は、KGに重要な回答情報が含まれないより困難な環境での有効性を制限するため、候補回答ノードのグラフ情報に依存する。 我々は,KGの有用なセマンティクスを学習し,LMの推論を支援するシンプルなグラフプーリング手法を提案し,その有効性はグラフ摂動下で堅牢であることを示す。 SemPoolと呼ばれる手法は、事前訓練されたLMでKGの事実を表現し、それらの意味情報を収集し、LMの異なる層で融合する。 実験の結果,SemPoolは,KGから回答情報が欠落している場合の平均精度を2.27%向上させることがわかった。 さらに、SemPoolは異なるLM層でどのグラフ情報が融合しているかの解釈可能性を提供します。

Knowledge Graph (KG) powered question answering (QA) performs complex reasoning over language semantics as well as knowledge facts. Graph Neural Networks (GNNs) learn to aggregate information from the underlying KG, which is combined with Language Models (LMs) for effective reasoning with the given question. However, GNN-based methods for QA rely on the graph information of the candidate answer nodes, which limits their effectiveness in more challenging settings where critical answer information is not included in the KG. We propose a simple graph pooling approach that learns useful semantics of the KG that can aid the LM's reasoning and that its effectiveness is robust under graph perturbations. Our method, termed SemPool, represents KG facts with pre-trained LMs, learns to aggregate their semantic information, and fuses it at different layers of the LM. Our experimental results show that SemPool outperforms state-of-the-art GNN-based methods by 2.27% accuracy points on average when answer information is missing from the KG. In addition, SemPool offers interpretability on what type of graph information is fused at different LM layers.
翻訳日:2024-02-06 20:50:55 公開日:2024-02-03
# yoloベースの赤外線小目標検出のための$\textit{a contrario}$パラダイム

$\textit{A Contrario}$ Paradigm for YOLO-based Infrared Small Target Detection ( http://arxiv.org/abs/2402.02288v1 )

ライセンス: Link先を確認
Alina Ciocarlan, Sylvie Le H\'egarat-Mascle, Sidonie Lefebvre, Arnaud Woiselle, Clara Barbanson(参考訳) 赤外線画像から小さなターゲットを検出することは、特にノイズやテクスチャの多い背景からターゲットを区別する上で、コンピュータビジョンにおいて難しい課題である。 YOLOのような従来のオブジェクト検出手法では、セグメンテーションニューラルネットワークに比べて小さなオブジェクトを検出できないため、小さなターゲットを検出する場合のパフォーマンスが低下する。 高検出率を維持しながら誤報数を減らすため, YOLO検出器のトレーニングに$\textit{a contrario}$決定基準を導入する。 後者は$\textit{unexpectedness}$の小さなターゲットを利用して、それらを複雑な背景から識別する。 YOLOv7-tinyにこの統計的基準を加えることで、赤外線小ターゲット検出のための最先端セグメンテーション法とオブジェクト検出ネットワークのパフォーマンスギャップを埋める。 また、数ショット設定に対するYOLOの堅牢性も大幅に向上する。

Detecting small to tiny targets in infrared images is a challenging task in computer vision, especially when it comes to differentiating these targets from noisy or textured backgrounds. Traditional object detection methods such as YOLO struggle to detect tiny objects compared to segmentation neural networks, resulting in weaker performance when detecting small targets. To reduce the number of false alarms while maintaining a high detection rate, we introduce an $\textit{a contrario}$ decision criterion into the training of a YOLO detector. The latter takes advantage of the $\textit{unexpectedness}$ of small targets to discriminate them from complex backgrounds. Adding this statistical criterion to a YOLOv7-tiny bridges the performance gap between state-of-the-art segmentation methods for infrared small target detection and object detection networks. It also significantly increases the robustness of YOLO towards few-shot settings.
翻訳日:2024-02-06 20:50:38 公開日:2024-02-03
# グラフ機械学習の基礎における今後の方向

Future Directions in Foundations of Graph Machine Learning ( http://arxiv.org/abs/2402.02287v1 )

ライセンス: Link先を確認
Christopher Morris, Nadav Dym, Haggai Maron, \.Ismail \.Ilkan Ceylan, Fabrizio Frasca, Ron Levie, Derek Lim, Michael Bronstein, Martin Grohe, and Stefanie Jegelka(参考訳) グラフ上の機械学習、特にグラフニューラルネットワーク(GNN)の使用は、生命から社会、エンジニアリング科学に至るまで、幅広い分野にわたるグラフデータの提供により、関心が高まっている。 その実用的成功にもかかわらず、GNNの特性に関する理論的理解は非常に不完全である。 近年の理論的進歩は主にGNNの粗粒度表現力の解明に焦点が当てられ、主に組合せ技術を用いている。 しかし、これらの研究は、特に確率的一階最適化手法で訓練された場合のGNNの一般化挙動の理解において、実践と完全に一致しない。 本稿では、グラフ機械学習コミュニティが、表現力、一般化、最適化の相互作用をより深く理解することに焦点を当て、よりバランスのとれたグラフ機械学習理論の開発に注意を向ける必要があることを論じる。

Machine learning on graphs, especially using graph neural networks (GNNs), has seen a surge in interest due to the wide availability of graph data across a broad spectrum of disciplines, from life to social and engineering sciences. Despite their practical success, our theoretical understanding of the properties of GNNs remains highly incomplete. Recent theoretical advancements primarily focus on elucidating the coarse-grained expressive power of GNNs, predominantly employing combinatorial techniques. However, these studies do not perfectly align with practice, particularly in understanding the generalization behavior of GNNs when trained with stochastic first-order optimization techniques. In this position paper, we argue that the graph machine learning community needs to shift its attention to developing a more balanced theory of graph machine learning, focusing on a more thorough understanding of the interplay of expressive power, generalization, and optimization.
翻訳日:2024-02-06 20:50:23 公開日:2024-02-03
# リアルタイムセマンティックセグメンテーションのためのマルチレベル特徴集合と再帰アライメントネットワーク

Multi-Level Feature Aggregation and Recursive Alignment Network for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2402.02286v1 )

ライセンス: Link先を確認
Yanhua Zhang, Ke Zhang, Jingyu Wang, Yulin Wu, Wuwei Wang(参考訳) リアルタイムセマンティクスセグメンテーションは、現実世界のアプリケーションにとって重要な研究である。 しかし、多くの手法は計算の複雑さとモデルサイズを減らすことに特に重点を置いている。 自律ナビゲーションや運転支援システムのようないくつかのシナリオでは、精度と速度が等しく重要である。 そこで本研究では,マルチレベル特徴集約・再帰的アライメントネットワーク(mfaranet)を提案する。 我々はResNet-18をバックボーンとして使用して効率を確保するとともに、浅いバックボーンによるモデル容量の削減を補う3つのコアコンポーネントを提案する。 具体的には、まずMFAM(Multi-level Feature Aggregation Module)を設計し、エンコーダの階層的特徴を各スケールに集約し、その後の空間的アライメントとマルチスケール推論に役立てる。 次に,フローベースアライメントモジュールと再帰アライメントアーキテクチャを組み合わせることで,マルチスケールスコアマップ間の空間アライメントを高精度かつ効率的に行うことで,RAMを構築する。 最後に,適応スコア・フュージョン・モジュール (ASFM) が複数スケールのスコアを適応的に融合し,最終的な予測が複数のスケールのオブジェクトを優先するように提案されている。 Cityscapes、CamVid、PASCAL-Contextを含む3つのベンチマークデータセットの総合的な実験により、本手法の有効性と効率が示された。 特に,都市景観とcamvidデータセットにおける最先端のリアルタイム手法よりも,速度と精度のバランスが良好である。 コードはhttps://github.com/yanhua-zhang/mfaranet。

Real-time semantic segmentation is a crucial research for real-world applications. However, many methods lay particular emphasis on reducing the computational complexity and model size, while largely sacrificing the accuracy. In some scenarios, such as autonomous navigation and driver assistance system, accuracy and speed are equally important. To tackle this problem, we propose a novel Multi-level Feature Aggregation and Recursive Alignment Network (MFARANet), aiming to achieve high segmentation accuracy at real-time inference speed. We employ ResNet-18 as the backbone to ensure efficiency, and propose three core components to compensate for the reduced model capacity due to the shallow backbone. Specifically, we first design Multi-level Feature Aggregation Module (MFAM) to aggregate the hierarchical features in the encoder to each scale to benefit subsequent spatial alignment and multi-scale inference. Then, we build Recursive Alignment Module (RAM) by combining the flow-based alignment module with recursive upsampling architecture for accurate and efficient spatial alignment between multi-scale score maps. Finally, the Adaptive Scores Fusion Module (ASFM) is proposed to adaptively fuse multi-scale scores so that the final prediction can favor objects of multiple scales. Comprehensive experiments on three benchmark datasets including Cityscapes, CamVid and PASCAL-Context show the effectiveness and efficiency of our method. In particular, we achieve a better balance between speed and accuracy than state-of-the-art real-time methods on Cityscapes and CamVid datasets. Code is available at: https://github.com/Yanhua-Zhang/MFARANet.
翻訳日:2024-02-06 20:50:09 公開日:2024-02-03
# SynthDST:Synthetic Dataは、簡単な対話状態トラッキングに必要なもの

SynthDST: Synthetic Data is All You Need for Few-Shot Dialog State Tracking ( http://arxiv.org/abs/2402.02285v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Bo-Hsiang Tseng, Joel Ruben Antony Moniz, Dhivya Piraviperumal, Hong Yu, Shruti Bhargava(参考訳) 大規模言語モデル(LLM)を用いたインコンテキスト学習は、ダイアログ状態追跡(DST)における将来的な研究の道のりとして登場した。 しかし、最も優れたコンテキスト内学習手法は、ラベル付きトレーニングデータへのアクセスを必要とするプロンプトに類似した例を検索し追加することである。 広範囲のドメインやアプリケーションのトレーニングデータを取得することは、時間がかかり、高価であり、時には実現不可能である。 ゼロショット学習はトレーニングデータを必要としないが、わずかなセットアップでは大幅に遅れている。 これにより、任意の対話スキーマの合成データを効率的に生成して、最小限のプロンプトを可能にすることができるか? LLMを利用してDSTに適したデータ生成フレームワークである‘method.*’を提案する。 本手法では,dstアノテーションを用いた自然・連帯・自由流対話を合成するために,対話スキーマと手作りの対話テンプレートのみを必要とする。 using data from {\method} を使えば、multiwoz 2.1 と 2.4 のゼロショットベースラインよりも、ジョイントゴール精度が4~5%向上する。 注目すべきは、私たちの少数ショット学習アプローチは、人間の注釈付きトレーニングデータを使用した数ショットセットアップと比較して、98%近いパフォーマンスを回復することです。 私たちの合成データとコードはhttps://github.com/apple/ml-synthdstでアクセスできます。

In-context learning with Large Language Models (LLMs) has emerged as a promising avenue of research in Dialog State Tracking (DST). However, the best-performing in-context learning methods involve retrieving and adding similar examples to the prompt, requiring access to labeled training data. Procuring such training data for a wide range of domains and applications is time-consuming, expensive, and, at times, infeasible. While zero-shot learning requires no training data, it significantly lags behind the few-shot setup. Thus, `\textit{Can we efficiently generate synthetic data for any dialogue schema to enable few-shot prompting?}' Addressing this question, we propose \method, a data generation framework tailored for DST, utilizing LLMs. Our approach only requires the dialogue schema and a few hand-crafted dialogue templates to synthesize natural, coherent, and free-flowing dialogues with DST annotations. Few-shot learning using data from {\method} results in $4-5%$ improvement in Joint Goal Accuracy over the zero-shot baseline on MultiWOZ 2.1 and 2.4. Remarkably, our few-shot learning approach recovers nearly $98%$ of the performance compared to the few-shot setup using human-annotated training data. Our synthetic data and code can be accessed at https://github.com/apple/ml-synthdst
翻訳日:2024-02-06 20:49:24 公開日:2024-02-03
# 動的ポートフォリオリスク管理のための深層強化学習によるマルチエージェント・自己適応型フレームワークの開発

Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management ( http://arxiv.org/abs/2402.00515v2 )

ライセンス: Link先を確認
Zhenglong Li, Vincent Tam, Kwan L. Yeung(参考訳) deep or reinforcement learning(rl)アプローチは、近年の非常に乱暴な金融市場環境下でポートフォリオ管理の新しい投資戦略をすばやく学び、対応するためのリアクティブエージェントとして採用されている。 金融セクター間の非常に複雑な相関関係や、異なる金融市場の変動傾向により、グローバルまたは地域セクターの様々な市場条件の混乱の下で潜在的なリスクを無視しつつ、新たに構成された投資ポートフォリオの総リターンを最大化する際に、深層学習又は強化学習に基づくエージェントに偏りが生じることが多い。 したがって、マルチエージェントで自己適応的なフレームワークであるMASAは、2つの協調および反応性エージェントを通じて洗練されたマルチエージェント強化学習(RL)アプローチを採用し、ポートフォリオ全体のリターンと潜在的なリスクの間のトレードオフを慎重に動的にバランスさせる。 さらに、市場オブザーバとしての非常にフレキシブルで積極的なエージェントがMASAフレームワークに統合され、市場状況の変化に迅速に適応するために、マルチエージェントRLアプローチの貴重なフィードバックとして、市場動向に関する追加情報を提供する。 その結果,過去10年間のCSI 300, Dow Jones Industrial Average, S&P 500 インデックスの挑戦的データセットに対する多くの有名な RL アプローチに対するマルチエージェント RL アプローチに基づいて,提案した MASA フレームワークの潜在的強みを明らかにした。 さらに重要なことは、我々の提案したMASAフレームワークが将来の調査のために多くの可能性の方向を明かしたことです。

Deep or reinforcement learning (RL) approaches have been adapted as reactive agents to quickly learn and respond with new investment strategies for portfolio management under the highly turbulent financial market environments in recent years. In many cases, due to the very complex correlations among various financial sectors, and the fluctuating trends in different financial markets, a deep or reinforcement learning based agent can be biased in maximising the total returns of the newly formulated investment portfolio while neglecting its potential risks under the turmoil of various market conditions in the global or regional sectors. Accordingly, a multi-agent and self-adaptive framework namely the MASA is proposed in which a sophisticated multi-agent reinforcement learning (RL) approach is adopted through two cooperating and reactive agents to carefully and dynamically balance the trade-off between the overall portfolio returns and their potential risks. Besides, a very flexible and proactive agent as the market observer is integrated into the MASA framework to provide some additional information on the estimated market trends as valuable feedbacks for multi-agent RL approach to quickly adapt to the ever-changing market conditions. The obtained empirical results clearly reveal the potential strengths of our proposed MASA framework based on the multi-agent RL approach against many well-known RL-based approaches on the challenging data sets of the CSI 300, Dow Jones Industrial Average and S&P 500 indexes over the past 10 years. More importantly, our proposed MASA framework shed lights on many possible directions for future investigation.
翻訳日:2024-02-06 12:16:19 公開日:2024-02-03
# 大きな言語モデルをスクラッチから設計する

Engineering A Large Language Model From Scratch ( http://arxiv.org/abs/2401.16736v3 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji(参考訳) 自然言語処理(NLP)における深層学習の普及は、卓越した熟練度で人間の言語を理解し、生成できる革新的な技術の開発とリリースにつながった。 トランスフォーマーベースのニューラルネットワークであるatinukeは、ユニークな構成を使用することで、さまざまな言語タスクのパフォーマンスを最適化する。 アーキテクチャは、入力と出力の間の有意義な親和性を引き出すために、注意メカニズムでシーケンシャルなデータを処理するための層を織り込む。 トポロジの設定とハイパーパラメータチューニングのため、特徴抽出と複雑なマッピングの学習によって、人間のような言語をエミュレートすることができる。 atinukeはモジュール化され、拡張性があり、既存の機械学習パイプラインとシームレスに統合できる。 ソフトマックス、埋め込み、マルチヘッドアテンションなどの高度なマトリックス操作は、テキスト、音響、視覚信号のニュアンス処理を可能にする。 ソフトウェア設計原則と数理理論と近代的なディープラーニング技術を統合することで、システムは解釈可能で堅牢なまま、自然言語タスクの最先端の結果を達成する。

The proliferation of deep learning in natural language processing (NLP) has led to the development and release of innovative technologies capable of understanding and generating human language with remarkable proficiency. Atinuke, a Transformer-based neural network, optimises performance across various language tasks by utilising a unique configuration. The architecture interweaves layers for processing sequential data with attention mechanisms to draw meaningful affinities between inputs and outputs. Due to the configuration of its topology and hyperparameter tuning, it can emulate human-like language by extracting features and learning complex mappings. Atinuke is modular, extensible, and integrates seamlessly with existing machine learning pipelines. Advanced matrix operations like softmax, embeddings, and multi-head attention enable nuanced handling of textual, acoustic, and visual signals. By unifying modern deep learning techniques with software design principles and mathematical theory, the system achieves state-of-the-art results on natural language tasks whilst remaining interpretable and robust.
翻訳日:2024-02-06 12:09:11 公開日:2024-02-03
# A/Bテストにおけるデータトレーニングループによる干渉の軽減:重み付きトレーニングアプローチ

Tackling Interference Induced by Data Training Loops in A/B Tests: A Weighted Training Approach ( http://arxiv.org/abs/2310.17496v4 )

ライセンス: Link先を確認
Nian Si(参考訳) 現代のレコメンデーションシステムでは、標準的なパイプラインは、履歴データの機械学習モデルをトレーニングし、ユーザの振る舞いを予測し、リコメンデーションを継続的に改善する。 しかし、これらのデータトレーニングループは、制御と処理アルゴリズムによって生成されたデータが異なる分布で結合されるa/bテストに干渉をもたらす可能性がある。 これらの課題に対処するために,重み付きトレーニングという新しいアプローチを導入する。 このアプローチでは、処理データまたは制御データのいずれかに現れる各データポイントの確率を予測するモデルをトレーニングし、モデルトレーニング中に重み付き損失を適用する。 このアプローチがトレーニング分布の変化を生じないすべての推定値の最小分散を達成することを実証する。 シミュレーション研究を通じて,提案手法のバイアスとばらつきを他の手法と比較した。

In modern recommendation systems, the standard pipeline involves training machine learning models on historical data to predict user behaviors and improve recommendations continuously. However, these data training loops can introduce interference in A/B tests, where data generated by control and treatment algorithms, potentially with different distributions, are combined. To address these challenges, we introduce a novel approach called weighted training. This approach entails training a model to predict the probability of each data point appearing in either the treatment or control data and subsequently applying weighted losses during model training. We demonstrate that this approach achieves the least variance among all estimators that do not cause shifts in the training distributions. Through simulation studies, we demonstrate the lower bias and variance of our approach compared to other methods.
翻訳日:2024-02-06 12:08:41 公開日:2024-02-03