このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231008となっている論文です。

PDF登録状況(公開日: 20231008)

TitleAuthorsAbstract論文公表日・翻訳日
# LLM統合アプリケーションにおけるRAC脆弱性の軽減

Demystifying RCE Vulnerabilities in LLM-Integrated Apps ( http://arxiv.org/abs/2309.02926v2 )

ライセンス: Link先を確認
Tong Liu, Zizhuang Deng, Guozhu Meng, Yuekang Li, Kai Chen, (参考訳) 近年,Large Language Models (LLMs) は様々な下流タスクにおいて顕著な可能性を示している。 LLM統合フレームワークは、重要なインフラとして機能し、多くのLLM統合Webアプリを生み出している。 しかしながら、これらのフレームワークのいくつかはリモートコード実行(RCE)脆弱性に悩まされており、アタッカーはプロンプトインジェクションを通じて、アプリのサーバ上で任意のコードをリモートで実行できる。 これらの脆弱性の深刻さにもかかわらず、体系的な調査のために既存の作業は行われていない。 これにより、LLM統合されたアプリケーションだけでなく、フレームワークの脆弱性を検出する方法に大きな課題が残される。 このギャップを埋めるために、私たちは2つの新しい戦略を提示します。 1) LLMSmithと呼ばれる静的解析ベースのツールで、フレームワークのソースコードをスキャンして、潜在的なRCE脆弱性を検出します。 2) LLM統合Webアプリの脆弱性を検証するための,プロンプトベースの自動テスト手法。 12のRCE脆弱性と1つの任意のファイル読み取り/書き込み脆弱性を含む、13の脆弱性を6つのフレームワークで発見した。 フレームワーク開発者によって11が確認され、7つのCVE IDが割り当てられた。 51のアプリをテストした結果、17のアプリに脆弱性が見つかりました。 責任を持って17の問題を対応する開発者に報告し、承認を受けました。 さらに、攻撃者が他のアプリユーザー(例えば、アプリのレスポンスハイジャック、ユーザーAPIキーリーク)を攻撃者と被害者との直接のやりとりなしに利用できるようにすることで、RCEを達成すること以上の攻撃効果を増幅する。 最後に、フレームワークとアプリ開発者のセキュリティ意識を改善するための緩和戦略を提案し、これらのリスクを効果的に軽減するのに役立つ。

In recent years, Large Language Models (LLMs) have demonstrated remarkable potential across various downstream tasks. LLM-integrated frameworks, which serve as the essential infrastructure, have given rise to many LLM-integrated web apps. However, some of these frameworks suffer from Remote Code Execution (RCE) vulnerabilities, allowing attackers to execute arbitrary code on apps' servers remotely via prompt injections. Despite the severity of these vulnerabilities, no existing work has been conducted for a systematic investigation of them. This leaves a great challenge on how to detect vulnerabilities in frameworks as well as LLM-integrated apps in real-world scenarios. To fill this gap, we present two novel strategies, including 1) a static analysis-based tool called LLMSmith to scan the source code of the framework to detect potential RCE vulnerabilities and 2) a prompt-based automated testing approach to verify the vulnerability in LLM-integrated web apps. We discovered 13 vulnerabilities in 6 frameworks, including 12 RCE vulnerabilities and 1 arbitrary file read/write vulnerability. 11 of them are confirmed by the framework developers, resulting in the assignment of 7 CVE IDs. After testing 51 apps, we found vulnerabilities in 17 apps, 16 of which are vulnerable to RCE and 1 to SQL injection. We responsibly reported all 17 issues to the corresponding developers and received acknowledgments. Furthermore, we amplify the attack impact beyond achieving RCE by allowing attackers to exploit other app users (e.g. app responses hijacking, user API key leakage) without direct interaction between the attacker and the victim. Lastly, we propose some mitigating strategies for improving the security awareness of both framework and app developers, helping them to mitigate these risks effectively.
翻訳日:2024-03-25 23:09:29 公開日:2023-10-08
# 新興市場フィンテックと金融サービスにおけるビッグデータプライバシ:研究アジェンダ

Big Data Privacy in Emerging Market Fintech and Financial Services: A Research Agenda ( http://arxiv.org/abs/2310.04970v1 )

ライセンス: Link先を確認
Joshua E. Blumenstock, Nitin Kohli, (参考訳) 低所得国と中所得国におけるデータ革命は、企業が新興市場にアプローチする方法を急速に変えつつある。 携帯電話やモバイルマネーの普及に伴い、消費者金融、信用、保険のイノベーションを可能にする新たなデータストリームが生み出される。 この新世代の製品は、すでに数億人の消費者が利用しており、金融サービスを初めて利用することが多い。 しかし、これらのデータの収集、分析、利用は、特に経済的に不利な人口からのものであり、深刻なプライバシー上の懸念を引き起こしている。 本稿では,新興のフィンテックおよび金融サービスにおけるデータプライバシの問題と解決空間の理解を促進するための研究課題について述べる。 総合的なランドスケープ分析を実施すること、‘データプライバシ’のローカル定義を理解すること、リスクの重要なソースと潜在的な技術的ソリューション(差分プライバシーや同相暗号化など)を文書化すること、データプライバシに対する非技術的アプローチを改善すること(ポリシーやプラクティスなど)、プライバシ強化ソリューションの展開に関わるトレードオフを理解すること。 一体となって、この研究課題が新興市場におけるプライバシーの多面的な性質に焦点を合わせ、データ集約型アプリケーションに対する責任と消費者指向のアプローチを開発するための取り組みを促進することを願っている。

The data revolution in low- and middle-income countries is quickly transforming how companies approach emerging markets. As mobile phones and mobile money proliferate, they generate new streams of data that enable innovation in consumer finance, credit, and insurance. Already, this new generation of products are being used by hundreds of millions of consumers, often to use financial services for the first time. However, the collection, analysis, and use of these data, particularly from economically disadvantaged populations, raises serious privacy concerns. This white paper describes a research agenda to advance our understanding of the problem and solution space of data privacy in emerging market fintech and financial services. We highlight five priority areas for research: conducting comprehensive landscape analyses; understanding local definitions of ``data privacy''; documenting key sources of risk, and potential technical solutions (such as differential privacy and homomorphic encryption); improving non-technical approaches to data privacy (such as policies and practices); and understanding the tradeoffs involved in deploying privacy-enhancing solutions. Taken together, we hope this research agenda will focus attention on the multi-faceted nature of privacy in emerging markets, and catalyze efforts to develop responsible and consumer-oriented approaches to data-intensive applications.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-08
# 産業用モノのインターネットのための信頼性と一貫性のあるブロックチェーン Oracle Scheme

A Trustworthy and Consistent Blockchain Oracle Scheme for Industrial Internet of Things ( http://arxiv.org/abs/2310.04975v1 )

ライセンス: Link先を確認
Peng Liu, Youquan Xian, Chuanjian Yao, Peng Wang, Li-e Wang, Xianxian Li, (参考訳) Blockchainは、IIoTのアプリケーションシナリオを拡張する、Industrial Internet of Things(IIoT)の分散性と信頼性のない機能を提供する。 ブロックチェーンがオフチェーンデータを積極的に取得できないという問題に対処するために、ブロックチェーンと外部データのブリッジとしてブロックチェーンのオラクルが提案されている。 しかし、既存のオラクル方式は、IIoTにおける頻繁なデータ変更や異種デバイスによる低品質なサービスの解決が困難であり、現在のオラクルノード選択方式は、サービスのセキュリティと品質のバランスをとるのが困難である。 このような問題に対処するために,高品質なオフチェーンデータが得られるセキュアで信頼性の高いオラクル方式を提案する。 具体的には、まず、検証ランダム関数(VRF)と評価機構に基づいて、高品質なノードをセキュアに選択するオラクルノード選択アルゴリズムを設計する。 次に、スライディングウィンドウに基づくデータフィルタリングアルゴリズムを提案し、収集したデータの一貫性をさらに向上する。 セキュリティ分析により提案手法の安全性を検証する。 実験の結果,提案手法はオラクルのサービス品質を効果的に向上させることができることがわかった。

Blockchain provides decentralization and trustlessness features for the Industrial Internet of Things (IIoT), which expands the application scenarios of IIoT. To address the problem that the blockchain cannot actively obtain off-chain data, the blockchain oracle is proposed as a bridge between the blockchain and external data. However, the existing oracle schemes are difficult to solve the problem of low quality of service caused by frequent data changes and heterogeneous devices in IIoT, and the current oracle node selection schemes are difficult to balance security and quality of service. To tackle these problems, this paper proposes a secure and reliable oracle scheme that can obtain high-quality off-chain data. Specifically, we first design an oracle node selection algorithm based on Verifiable Random Function (VRF) and reputation mechanism to securely select high-quality nodes. Second, we propose a data filtering algorithm based on a sliding window to further improve the consistency of the collected data. We verify the security of the proposed scheme through security analysis. The experimental results show that the proposed scheme can effectively improve the service quality of the oracle.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-08
# PASSION: セグメンテーションされたデバイスに対する許可されたアクセス制御とIoTネットワークに対するアイデンティティ

PASSION: Permissioned Access Control for Segmented Devices and Identity for IoT Networks ( http://arxiv.org/abs/2310.05032v1 )

ライセンス: Link先を確認
Hisham Ali, Mwrwan Abubakar, Jawad Ahmad, William J. Buchanan, Zakwan Jaroucheh, (参考訳) 近年,IoT(Industrial Internet of Things)アプリケーションが急速に普及し,さまざまなユースケースが開発され,運用されている。 産業用IoTの展望が拡大するにつれ、ユーザや利害関係者の信頼を損なうために、安全で信頼性の高いインフラストラクチャの確立が不可欠になる。 本稿では,ブロックチェーンベースのデータアクセス制御を用いたIoTシステムにおけるプライバシ保護手法を提案する。

In recent years, there has been a significant proliferation of industrial Internet of Things (IoT) applications, with a wide variety of use cases being developed and put into operation. As the industrial IoT landscape expands, the establishment of secure and reliable infrastructure becomes crucial to instil trust among users and stakeholders, particularly in addressing fundamental concerns such as traceability, integrity protection, and privacy that some industries still encounter today. This paper introduces a privacy-preserving method in the industry's IoT systems using blockchain-based data access control for remote industry safety monitoring and maintaining event information confidentiality, integrity and authenticity.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-08
# RSMS: 信頼性とセキュアなメタバースサービス提供に向けて

RSMS: Towards Reliable and Secure Metaverse Service Provision ( http://arxiv.org/abs/2310.05033v1 )

ライセンス: Link先を確認
Yanwei Gong, Xiaolin Chang, Jelena Mišić, Vojislav B. Mišić, Yingying Yao, (参考訳) メタバースサービスの確立と維持は、前例のない規模のリソースを必要とします。 本稿では,高帯域幅と低レイテンシの両方を確保しつつ,Metaverseサービスリソースのエスカレート需要を満たすクラウドエッジリソースアーキテクチャにおけるMetaverseサービスの展開を検討する。 性能を犠牲にすることなく、Metaverseサービスの信頼性とセキュリティを確保するために、Reliable and Secure Metaverse Service (RSMS) という新しいメカニズムを提案する。 1つはブロックチェーンベースの軽量相互認証プロトコルで、異種Metaverseサービスリソースノード(RN)がMetaverseサービスリソースプールを動的に結合し、その信頼性を保証し、Metaverseサービスのセキュリティを保証する。 2)もう1つは,RNが構成する安定かつセキュアなMetaverseサービスグループの形成と維持に使用されるグループ認証プロトコルで,Metaverseサービスの信頼性を確保し,セキュリティを強化する。 RSMSにおけるMetaverseサービスの信頼性とセキュリティについて深く議論し、非公式および公式なセキュリティ分析を行う。 さらに,RTSがMetaverseサービスのスループットに与える影響について検討し,その軽量な機能を示す。

Establishing and sustaining Metaverse service necessitates an unprecedented scale of resources. This paper considers the deployment of Metaverse service in a cloud-edge resource architecture, which can satisfy the escalating demand for Metaverse service resources while ensuring both high bandwidth and low latency. We propose a novel mechanism, named Reliable and Secure Metaverse Service (RSMS), to ensure Metaverse service reliability and security without sacrificing performance. RSMS consists of two protocols: (1) One is a blockchain-based lightweight mutual authentication protocol concerning heterogeneous Metaverse service resource nodes (RNs) dynamically joining a Metaverse service resource pool while guaranteeing their trustworthiness, which guarantees the security of Metaverse service. (2) The other is a group authentication protocol used to form and maintain a stable and secure Metaverse service group composed by RNs, which ensures the reliability and enhances the security of Metaverse service. The reliability and security of Metaverse service under RSMS are thoroughly discussed, and informal and formal security analysis are conducted. Additionally, we study the impact of RSMS on Metaverse service throughput, demonstrating its lightweight feature.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-08
# 交通制約を考慮したベクトル変換不変性に基づくプライバシ保護軌道合成法

A Privacy-Preserving Trajectory Synthesis Method Based on Vector Translation Invariance Supporting Traffic Constraints ( http://arxiv.org/abs/2310.05091v1 )

ライセンス: Link先を確認
Zechen Liu, Wei Song, Yuhan Wang, (参考訳) 各種スマート端末の普及や自動運転技術の発展に伴い、オンラインタクシーサービス、交通流予測、ウイルスの伝播追跡など、時空間データに基づくサービスが生活に多く現れている。 しかし、時空間データのプライバシーに関する懸念は、それらの使用を著しく制限する。 この問題に対処するため,時空間データに基づく差分プライバシー法が提案されている。 差分プライバシーでは、優れたアグリゲーションクエリはデータユーティリティを高度に改善することができる。 しかし、主流の集約クエリ手法は領域分割に基づいているため、高いユーティリティを持つ軌道を生成することは困難であり、時間と制約を考慮するのが困難である。 そこで本研究では,トラジェクトリ間の関係に基づくアグリゲーションクエリを提案し,既存の手法と比較してデータの有用性を大幅に向上させることができる。 トラジェクトリ合成タスクは、トラジェクトリ間の関係に一致するトラジェクトリを見つける最適化問題とみなすことができる。 我々は、条件を満たす新しい軌道を見つけるために勾配降下を採用し、勾配降下中は、領域分割に基づくクエリが困難であるペナルティ項を追加することで、容易に制約を考慮できる。 提案手法が提案するトラジェクトリは有効性が高く,理論解析により安全かつ信頼性が高いことが示された。

With the popularization of different kinds of smart terminals and the development of autonomous driving technology, more and more services based on spatio-temporal data have emerged in our lives, such as online taxi services, traffic flow prediction, and tracking virus propagation. However, the privacy concerns of spatio-temporal data greatly limit the use of them. To address this issue, differential privacy method based on spatio-temporal data has been proposed. In differential privacy, a good aggregation query can highly improve the data utility. But the mainstream aggregation query methods are based on area partitioning, which is difficult to generate trajectory with high utility for they are hard to take time and constraints into account. Motivated by this, we propose an aggregation query based on the relationships between trajectories, so it can greatly improve the data utility as compared to the existing methods. The trajectory synthesis task can be regarded as an optimization problem of finding trajectories that match the relationships between trajectories. We adopt gradient descent to find new trajectories that meet the conditions, and during the gradient descent, we can easily take the constraints into account by adding penalty terms which area partitioning based query is hard to achieve. We carry out extensive experiments to validate that the trajectories generated by our method have higher utility and the theoretic analysis shows that our method is safe and reliable.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-08
# ランダム化キャッシュアーキテクチャにおけるキャッシュ実行時アタックの増幅について

On the Amplification of Cache Occupancy Attacks in Randomized Cache Architectures ( http://arxiv.org/abs/2310.05172v1 )

ライセンス: Link先を確認
Anirban Chakraborty, Nimish Mishra, Sayandeep Saha, Sarani Bhattacharya, Debdeep Mukhopadhyay, (参考訳) 本研究では,キャッシュ占有攻撃の適用可能性と,キャッシュ設計のセキュアな論理が攻撃に与える影響について検討する。 特に、よく知られたキャッシュランダム化スキームであるMIRAGEは、消去ベースの攻撃に対して耐性があり、キャッシュ占有攻撃の可能性を増幅し、現代の設計に比べて脆弱であることを示す。 MIRAGEのグローバルなエヴィジョン特性を活用して、他のスキームよりもキャッシュ占有要件($10\%)がはるかに少ないバイトレベルの粒度でカバートチャネルを実証する。 例えば、ScatterCache(MIRAGEよりもセキュリティ保証が低いランダム化スキーム)とジェネリックなセット連想キャッシュは、秘密の通信を示すためにそれぞれ$40\%と$30\%のキャッシュ占有力を必要とする。 さらに、攻撃ベクトルを拡張して、ワークロードのサイドチャネル、テンプレートベースのフィンガープリントをクロスコア設定に含めます。 内部LLCシミュレータと gem5 上の SPEC2017 ワークロードの両方で,このような指紋認証の有効性を実証する。 最後に、ScatterCacheとベースラインのセットアソシエイトキャッシュに関して、MIRAGEのパフォーマンス統計を再評価する動機となる、MIRAGEが公開しているgem5アーティファクトの実装の矛盾を指摘します。 実際、MIRAGEは文献で報告されているものよりもパフォーマンスが悪く、これは後継のセキュアキャッシュ世代で対処すべき懸念である。

In this work, we explore the applicability of cache occupancy attacks and the implications of secured cache design rationales on such attacks. In particular, we show that one of the well-known cache randomization schemes, MIRAGE, touted to be resilient against eviction-based attacks, amplifies the chances of cache occupancy attack, making it more vulnerable compared to contemporary designs. We leverage MIRAGE's global eviction property to demonstrate covert channel with byte-level granularity, with far less cache occupancy requirement (just $10\%$ of LLC) than other schemes. For instance, ScatterCache (a randomisation scheme with lesser security guarantees than MIRAGE) and generic set-associative caches require $40\%$ and $30\%$ cache occupancy, respectively, to exhibit covert communication. Furthermore, we extend our attack vectors to include side-channel, template-based fingerprinting of workloads in a cross-core setting. We demonstrate the potency of such fingerprinting on both inhouse LLC simulator as well as on SPEC2017 workloads on gem5. Finally, we pinpoint implementation inconsistencies in MIRAGE's publicly available gem5 artifact which motivates a re-evaluation of the performance statistics of MIRAGE with respect to ScatterCache and baseline set-associative cache. We find MIRAGE, in reality, performs worse than what is previously reported in literature, a concern that should be addressed in successor generations of secured caches.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-08
# ブロックチェーンが想定する災害救済ネットワーク - アーキテクチャ,機会,オープンな課題

Blockchain-Envisioned Disaster Relief Networks: Architecture, Opportunities, and Open Issues ( http://arxiv.org/abs/2310.05180v1 )

ライセンス: Link先を確認
Yuntao Wang, Qinnan Hu, Zhou Su, Xiang Zou, Jian Zhou, (参考訳) 自然災害や人的災害は、重要なインフラや物流網の破壊により、被災者への危機的救済を実現する上で大きな課題となる。 無人航空機(UAV)支援災害救助ネットワーク(UDRN)は、UAVを活用し、被災地を迅速に評価し、救命物資をタイムリーに届けることによって、既存の地上救援ネットワークを支援する。 しかし、相互調整、信頼、安全保障における深刻な課題はUDRNの配備を妨げる。 本稿では、有望なブロックチェーン技術を活用し、協調的で信頼性のない、トレーサブルな災害救助サービスに対処する。 具体的には、空間、空気、地上層を取り入れた一般的なブロックチェーン指向のUDRNアーキテクチャを最初に提示する。 その後、ブロックチェーンベースのUDRNシステムを最適化することを提案する。 i) 透明かつ自動化された救済業務のための一連のスマートコントラクト (二 既知の、未知の契約の脆弱性を防止するための動的契約監査機構、及び 三 トレーサブルレリーフサービスのためのオン・オフ・チェーン連携による取引法医学的戦略 プロトタイプ実装を通じて,脅威認識のレイテンシと脆弱性検出率の観点から,提案手法の有効性と有効性を示す実験結果を得た。 最後に、この新興分野において重要な研究課題について概説する。

Natural or man-made disasters pose significant challenges for delivering critical relief to affected populations due to disruptions in critical infrastructures and logistics networks. Unmanned aerial vehicles (UAVs)-aided disaster relief networks (UDRNs) leverage UAVs to assist existing ground relief networks by swiftly assessing affected areas and timely delivering lifesaving supplies. However, severe challenges in mutual coordination, trust, and security hinder the deployment of UDRNs. This paper leverages the promising blockchain technology to address collaborative, trust-free, and traceable disaster relief services. Specifically, we first present a general blockchain-oriented UDRN architecture incorporating space, air, and ground layers. Subsequently, we propose to optimize the blockchain-based UDRN system, including (i) a series of smart contracts for transparent and automated relief assignment; (ii) a dynamic contract audit mechanism to prevent known/unknown contract vulnerabilities; and (iii) a transaction forensics strategy with on/off-chain cooperation for traceable relief services. Through a prototype implementation, experimental results demonstrate the feasibility and effectiveness of our approach in terms of threat awareness latency and vulnerability detection rate. Lastly, we outline key open research issues crucial to this emerging field.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-08
# ROSTAM: パスワードのないWebシングルサインオンソリューション

ROSTAM: A Passwordless Web Single Sign-on Solution Mitigating Server Breaches and Integrating Credential Manager and Federated Identity Systems ( http://arxiv.org/abs/2310.05222v1 )

ライセンス: Link先を確認
Amin Mahnamfar, Kemal Bicakci, Yusuf Uzunay, (参考訳) パスワードレスのユーザ認証を実現するという課題は、パスワードを要求し続けるWebアプリケーションが多いことを考えると、現実的です。 この問題をさらに複雑にすると、企業環境では、シングルサインオン(SSO)サービスがしばしば維持されるが、すべてのアプリケーションがそれに統合できるわけではない。 クレデンシャル・マネジメントとフェデレーション・アイデンティティ・システムを統合することで,ユーザにとって不利で信頼性の高いオンラインエクスペリエンスを提供する,パスワードのない未来を構想する。 この点に関して、ROSTAMは、パスワードのないSSOの後、ユーザが1クリックでアクセスできるすべてのアプリケーションを示すダッシュボードを提供します。 クレデンシャルマネージャのウェブパスワードのセキュリティはマスターパスワードではなくマスターキーで保証されるので、暗号化パスワードはサーバから盗まれたとしても安全である。 本稿では,このマスターキーの同期(ペアリング)とリカバリのための新しい手法を提案し,実装する。 当社のハイブリッドソリューションは,資格管理とフェデレーションIDシステムのメリットを組み合わせたものであることを実証する。

The challenge of achieving passwordless user authentication is real given the prevalence of web applications that keep asking passwords. Complicating this issue further, in an enterprise environment, a single sign-on (SSO) service is often maintained but not all applications can be integrated with it. We envision a passwordless future which provides a frictionless and trustworthy online experience for users by integrating credential management and federated identity systems. In this regard, our implementation ROSTAM offers a dashboard that presents all applications the user can access with a single click after a passwordless SSO. The security of web passwords on the credential manager is ensured with a Master Key, rather than a Master Password, so that encrypted passwords can remain secure even if stolen from the server. We propose and implement novel techniques for synchronization (pairing) and recovery of this Master Key. We compare our solution to previous work using different evaluation frameworks, demonstrating that our hybrid solution combines the benefits of credential management and federated identity systems.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-08
# バックドアアタックに対する信頼性駆動サンプリング

Confidence-driven Sampling for Backdoor Attacks ( http://arxiv.org/abs/2310.05263v1 )

ライセンス: Link先を確認
Pengfei He, Han Xu, Yue Xing, Jie Ren, Yingqian Cui, Shenglai Zeng, Jiliang Tang, Makoto Yamada, Mohammad Sabokrou, (参考訳) バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。 既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。 我々の研究は、ランダムサンプリングの見落とされがちな欠点を強調し、攻撃を検知し、防御できるようにする。 本論文の中核となる考え方は, モデル決定境界付近の試料を戦略的に毒殺し, 防御難度を高めることである。 信頼性スコアを生かした,単純かつ高効率なサンプリング手法を提案する。 具体的には、信頼度が低いサンプルを選択し、これらの攻撃を特定して対処する際のディフェンダーの課題を著しく増加させる。 提案手法は既存のトリガ設計とは独立して動作し,多様なバックドア攻撃手法との汎用性と互換性を提供する。 我々は,DNNのバックドア攻撃に対するレジリエンスを著しく向上させる可能性を実証し,包括的実験を通じてアプローチの有効性を実証する。

Backdoor attacks aim to surreptitiously insert malicious triggers into DNN models, granting unauthorized control during testing scenarios. Existing methods lack robustness against defense strategies and predominantly focus on enhancing trigger stealthiness while randomly selecting poisoned samples. Our research highlights the overlooked drawbacks of random sampling, which make that attack detectable and defensible. The core idea of this paper is to strategically poison samples near the model's decision boundary and increase defense difficulty. We introduce a straightforward yet highly effective sampling methodology that leverages confidence scores. Specifically, it selects samples with lower confidence scores, significantly increasing the challenge for defenders in identifying and countering these attacks. Importantly, our method operates independently of existing trigger designs, providing versatility and compatibility with various backdoor attack techniques. We substantiate the effectiveness of our approach through a comprehensive set of empirical experiments, demonstrating its potential to significantly enhance resilience against backdoor attacks in DNNs.
翻訳日:2024-03-19 02:52:40 公開日:2023-10-08
# 建設企業における仮想現実実現のための費用対利益分析モデル

Cost/benefit analysis model for implementing virtual reality in construction companies ( http://arxiv.org/abs/2311.10726v1 )

ライセンス: Link先を確認
Payam Mohammadi, Claudia Garrido Martins(参考訳) ImT(Immersive Technology)は、VR(Virtual Reality)のように、建設業界にいくつかの潜在的な応用がある。 しかし、コスト便益分析の欠如は、建設意思決定者がこれらの技術を実装することを妨げている。 本研究では,建設企業における仮想現実の実現のための費用対効果分析を行うための主要なモデルを提案する。 コストと利益の要因は文献レビューによって同定され,モデルの入力変数を考慮し,合成データを用いてモンテカルロシミュレーションを行い,結果の分布を推定した。 入力パラメータの不確実性を考えると、この分布は全純利益の潜在的範囲を反映している。 文献と仮定のみで得られた合成データと入力要素を考慮すると、VR実装は結果に基づいて有望な決定となる可能性がある。 この研究の結果は、建設企業の意思決定者に、この分野に関心のあるVRや他の研究者のコストと利益に関する恩恵をもたらすだろう。

Immersive technologies (ImT), like Virtual Reality (VR), have several potential applications in the construction industry. However, the absence of a cost-benefit analysis discourages construction decision-makers from implementing these technologies. In this study, we proposed a primary model for conducting a cost-benefit analysis for implementing virtual reality in construction companies. The cost and benefit factors were identified through a literature review and considered input variables for the model, and then using synthetic data, a Monte Carlo simulation was performed to generate a distribution of outcome. Given the uncertainty in input parameters, this distribution reflected the potential range of total net benefit. Considering synthetic data and input factors obtained only through literature and assumptions, VR implementation could be a promising decision based on the results. This study's results would benefit decision-makers in construction companies about the costs and benefits of implementing VR and other researchers interested in this field.
翻訳日:2024-01-15 15:56:13 公開日:2023-10-08
# RL統合によるBDDベースのフレームワーク: 自動テストのためのアプローチ

BDD-Based Framework with RL Integration: An approach for videogames automated testing ( http://arxiv.org/abs/2311.03364v1 )

ライセンス: Link先を確認
Vincent Mastain, Fabio Petrillo(参考訳) テストはソフトウェア開発において重要な役割を果たすが、ビデオゲームの領域では、プロセスは従来のソフトウェア開発のプラクティスとは異なる。 ゲーム開発者は一般的に、さまざまな要素を評価するためにチェックリストを提供する人間のテスターに依存します。 大手ゲーム開発者はすでにスクリプトベースのボットを使った自動テストを採用しているが、ビデオゲームの複雑さが増し、スクリプトソリューションの限界が押し上げられ、より高度なテスト戦略を採用する必要がある。 ゲームスタジオが自動テストを通じてゲームの品質向上を支援するために,振る舞い駆動開発(BDD)と強化学習(RL)の統合を提案する。 本稿では,開発中の提案と枠組みについて概説する。

Testing plays a vital role in software development, but in the realm of video games, the process differs from traditional software development practices. Game developers typically rely on human testers who are provided with checklists to evaluate various elements. While major game developers already employ automated testing using script-based bots, the increasing complexity of video games is pushing the limits of scripted solutions, necessitating the adoption of more advanced testing strategies. To assist game studios in enhancing the quality of their games through automated testing, we propose the integration of Behavior Driven Development (BDD) with Reinforcement Learning (RL). This positional paper summarizes our proposal and framework under development.
翻訳日:2023-11-12 19:46:38 公開日:2023-10-08
# A Nova Eletricidade: Aplica\c{c}\~oes, Riscos e Tend\^encias da IA Moderna -- The New Electricity":応用,リスク,現在のAIの動向

"A Nova Eletricidade: Aplica\c{c}\~oes, Riscos e Tend\^encias da IA Moderna -- "The New Electricity": Applications, Risks, and Trends in Current AI ( http://arxiv.org/abs/2310.18324v1 )

ライセンス: Link先を確認
Ana L.C. Bazzan, Anderson R. Tavares, Andr\'e G. Pereira, Cl\'audio R. Jung, Jacob Scharcanski, Joel Luis Carbonera, Lu\'is C. Lamb, Mariana Recamonde-Mendoza, Thiago L.T. da Silveira, Viviane Moreira(参考訳) コンピュータ科学者で起業家のAndrew Ng氏による、AIと電気の思慮を喚起するアナロジーは、人工知能(AI)の最近の進歩が世界中で引き起こした深い変革を要約している。 この章は、ポルトガル語で書かれた、進化を続けるAIの風景の概要を示す。 この問題をなくす意図もなく、我々は経済の分野を再定義するAI応用を探求し、社会と人間性に影響を与える。 われわれは、19世紀から20世紀にかけて社会に革命をもたらした電気と同じように、AIの急速な技術進歩と将来のトレンドに伴うリスクを分析する。 a provocativa compara\c{c}\~ao entre IA e eletricidade, feita pelo cientista da computa\c{c}\~ao e empreendedor Andrew Ng, continue a profunda transforma\c{c}\~ao que os recentes avan\c{c}os em Intelig\^encia Artificial (IA) t\em desencadeado no mundo. Este cap\'itulo apresenta uma vis\~ao geral pela paisagem em constante evolu\c{c}\~ao da IA。 sem pretens\~oes de exaurir o assunto, exploramos as aplica\c{c}\~oes que est\~ao redefinindo setores da economia, impactando a sociedade e a humanidade Analisamos os riscos que acompanham o r\apido progresso tecnol\'ogico e as tend\^encias futuras da IA, \'area que trilha o caminho para se tornar uma tecnologia de prop\'osito geral, assim como a eletricidade, que revolucionou a sociedade dos s\'eculos XIX e XX。

The thought-provoking analogy between AI and electricity, made by computer scientist and entrepreneur Andrew Ng, summarizes the deep transformation that recent advances in Artificial Intelligence (AI) have triggered in the world. This chapter presents an overview of the ever-evolving landscape of AI, written in Portuguese. With no intent to exhaust the subject, we explore the AI applications that are redefining sectors of the economy, impacting society and humanity. We analyze the risks that may come along with rapid technological progress and future trends in AI, an area that is on the path to becoming a general-purpose technology, just like electricity, which revolutionized society in the 19th and 20th centuries. A provocativa compara\c{c}\~ao entre IA e eletricidade, feita pelo cientista da computa\c{c}\~ao e empreendedor Andrew Ng, resume a profunda transforma\c{c}\~ao que os recentes avan\c{c}os em Intelig\^encia Artificial (IA) t\^em desencadeado no mundo. Este cap\'itulo apresenta uma vis\~ao geral pela paisagem em constante evolu\c{c}\~ao da IA. Sem pretens\~oes de exaurir o assunto, exploramos as aplica\c{c}\~oes que est\~ao redefinindo setores da economia, impactando a sociedade e a humanidade. Analisamos os riscos que acompanham o r\'apido progresso tecnol\'ogico e as tend\^encias futuras da IA, \'area que trilha o caminho para se tornar uma tecnologia de prop\'osito geral, assim como a eletricidade, que revolucionou a sociedade dos s\'eculos XIX e XX.
翻訳日:2023-11-05 14:06:45 公開日:2023-10-08
# TARGET:自動運転車のテストのための交通ルールからシナリオの自動生成

TARGET: Automated Scenario Generation from Traffic Rules for Testing Autonomous Vehicles ( http://arxiv.org/abs/2305.06018v2 )

ライセンス: Link先を確認
Yao Deng, Jiaohong Yao, Zhi Tu, Xi Zheng, Mengshi Zhang, Tianyi Zhang(参考訳) 自律運転システム(ADS)の安全性と堅牢性を確保することが不可欠である。 この保証に向けた重要な方法の1つは、細心の注意深いテストシナリオの構築と実行である。 この課題に対応して,確立した交通ルールに基づくテストシナリオの自動生成を目的としたエンドツーエンドフレームワークであるTARGETを紹介した。 具体的には、シナリオ記述のための簡潔で表現力豊かな構文を持つドメイン固有言語(DSL)を設計する。 交通ルール記述における自然言語の複雑さとあいまいさに対処するため、交通ルールから知識を自動的に抽出し、交通ルール記述をDSL表現に変換するために、大きな言語モデルを利用する。 これらの表現に基づいて、TARGETは実行可能なテストシナリオスクリプトを合成し、シミュレータでテストシナリオをレンダリングする。 フレームワークの包括的な評価は4つの異なる広告で行われ、8つの異なる地図にまたがる合計217のテストシナリオが展開された。 これらのシナリオは、約700のルール違反、衝突、その他ナビゲーション障害を含む重要な問題を特定する。 さらに、検出された各異常に対して、TARGETは詳細なシナリオ記録とログレポートを提供し、トラブルシューティングと根本原因分析のプロセスを大幅に緩和する。 これら2つの原因は、ADS開発者によって確認されている。1つは、ADSの既存のバグレポートによって裏付けられ、もう1つは、ADSの限られた機能に起因する。

Ensuring the safety and robustness of autonomous driving systems (ADSs) is imperative. One of the crucial methods towards this assurance is the meticulous construction and execution of test scenarios, a task often regarded as tedious and laborious. In response to this challenge, this paper introduces TARGET, an end-to-end framework designed for the automatic generation of test scenarios grounded in established traffic rules. Specifically, we design a domain-specific language (DSL) with concise and expressive syntax for scenario descriptions. To handle the natural language complexity and ambiguity in traffic rule descriptions, we leverage a large language model to automatically extract knowledge from traffic rules and convert the traffic rule descriptions to DSL representations. Based on these representations, TARGET synthesizes executable test scenario scripts to render the testing scenarios in a simulator. Comprehensive evaluations of the framework were conducted on four distinct ADSs, yielding a total of 217 test scenarios spread across eight diverse maps. These scenarios identify approximately 700 rule violations, collisions, and other significant issues, including navigation failures. Moreover, for each detected anomaly, TARGET provides detailed scenario recordings and log reports, significantly easing the process of troubleshooting and root cause analysis. Two of these causes have been confirmed by the ADS developers; one is corroborated by an existing bug report from the ADS, and the other one is attributed to the limited functionality of the ADS.
翻訳日:2023-10-24 09:02:34 公開日:2023-10-08
# より小さく、より速く、よりグリーンなコードの言語モデルに向けて

Towards Smaller, Faster, and Greener Language Models of Code ( http://arxiv.org/abs/2309.04076v2 )

ライセンス: Link先を確認
Jieke Shi, Zhou Yang, Hong Jin Kang, Bowen Xu, Junda He, David Lo(参考訳) コードの大規模な言語モデルは、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。 これらの強力なモデル上に構築された多くのクラウドサービスが利用可能であるにも関わらず、制限されたあるいは信頼性の低いインターネットアクセスや、サードパーティベンダへのコードの外部送信を禁じる制度的なプライバシポリシなど、開発者がそれをフルに活用できないいくつかのシナリオが残っている。 したがって、開発者のデバイスに配置するためのコンパクトで効率的な省エネルギーモデルの開発が不可欠である。 そこで本研究では, モデルサイズ, 推論遅延, エネルギー消費, 炭素フットプリントを最適化し, 同等の効率性を維持しながら, 大規模言語モデルからデプロイ可能なモデルを構築する新しいアプローチであるAvatarを提案する。 アバターの重要な考え方は、言語モデルの最適化を多目的構成チューニング問題として定式化し、満足性モジュラー理論(smt)解法と最適化アルゴリズムの助けを借りて解くことである。 SMTソルバは適切な構成空間を形成するために使用され、最適化アルゴリズムは知識蒸留を用いて最適化されたモデルのトレーニングのためのパレート最適構成を識別する。 我々は、脆弱性予測とクローン検出という2つの一般的なタスクにおいて、AvatarをCodeBERTとGraphCodeBERTの2つの人気のある言語モデルで評価する。 私たちはAvatarを使って、小さなサイズ(3MB)で最適化されたモデルを作ります。 2つのタスクでは、最適化されたモデルによってエネルギー消費量(最大184$\times$以下)、カーボンフットプリント(最大157$\times$以下)、推論レイテンシ(最大76$\times$高速)が大幅に削減され、有効性が低下する(平均1.67\%)。

Large language models of code have shown remarkable effectiveness across various software engineering tasks. Despite the availability of many cloud services built upon these powerful models, there remain several scenarios where developers cannot take full advantage of them, stemming from factors such as restricted or unreliable internet access, institutional privacy policies that prohibit external transmission of code to third-party vendors, and more. Therefore, developing a compact, efficient, and yet energy-saving model for deployment on developers' devices becomes essential. To this aim, we propose Avatar, a novel approach that crafts a deployable model from a large language model of code by optimizing it in terms of model size, inference latency, energy consumption, and carbon footprint while maintaining a comparable level of effectiveness. The key idea of Avatar is to formulate the optimization of language models as a multi-objective configuration tuning problem and solve it with the help of a Satisfiability Modulo Theories (SMT) solver and a tailored optimization algorithm. The SMT solver is used to form an appropriate configuration space, while the optimization algorithm identifies the Pareto-optimal set of configurations for training the optimized models using knowledge distillation. We evaluate Avatar with two popular language models of code, i.e., CodeBERT and GraphCodeBERT, on two popular tasks, i.e., vulnerability prediction and clone detection. We use Avatar to produce optimized models with a small size (3 MB), which is 160$\times$ smaller than the original large models. On the two tasks, the optimized models significantly reduce the energy consumption (up to 184$\times$ less), carbon footprint (up to 157$\times$ less), and inference latency (up to 76$\times$ faster), with only a negligible loss in effectiveness (1.67\% on average).
翻訳日:2023-10-23 08:22:10 公開日:2023-10-08
# hypoCompass: 初心者のデバッグにおける仮説構築のための大規模言語モデルベースのチュータ

HypoCompass: Large-Language-Model-based Tutor for Hypothesis Construction in Debugging for Novices ( http://arxiv.org/abs/2310.05292v1 )

ライセンス: Link先を確認
Qianou Ma, Hua Shen, Kenneth Koedinger, Tongshuang Wu(参考訳) ソフトウェア開発において不完全だが有能なllmが普及するにつれて、開発者はデバッグスキルを育むことがますます重要になってきています。 必要にもかかわらず、明示的な命令が欠如しているため、デバッグにおける仮説構築が教えられることは滅多にない。 本研究では,理論的な動機づけのある llm-augmented tutor -- hypocompass を設計することにより,仮説構築の初心者を訓練するために llm が使用できるかどうかを検討する。 hypoCompassは、LLMがバグを書いて修正しようとする学生として行動し、人間の初心者が指導助手の役割でデバッグすることに集中する学習教育環境において、学習原則によって導かれるリッチなトレーニング教材を生成するためにLLMに依存している。 評価によると、HypoCompassは高品質なトレーニング材料を一貫して生成し、大きな学習効果をもたらす。 事前テストセットアップでは、10人の初心者がパフォーマンスを17%改善し、13%の完成時間が短縮された。

With the prevalence of imperfect but capable LLMs in software development, it becomes increasingly important for developers to cultivate debugging skills -- to form hypotheses about the source of error in both their own codes and codes produced by their AI pair programmers. Despite the necessity, hypothesis construction in debugging is rarely taught due to a lack of explicit instruction. In this work, we explore whether LLMs can be used to train novices on hypothesis construction, by designing a theoretically motivated, LLM-augmented tutor -- HypoCompass. HypoCompass relies on LLMs for generating rich training materials guided by learning principles and presents them in a learning-by-teaching environment, where LLMs act as students who write bugs and attempt to fix them, and human novices focus on debugging in the role of a Teaching Assistant. Evaluations show that HypoCompass consistently generates high-quality training materials, and brings significant learning gain: In a pre-to-post test setup, 10 novices improved their performances by 17%, with a reduced completion time of 13%.
翻訳日:2023-10-23 04:15:46 公開日:2023-10-08
# 多体系における学習力則

Learning force laws in many-body systems ( http://arxiv.org/abs/2310.05273v1 )

ライセンス: Link先を確認
Wentao Yu, Eslam Abdelaleem, Ilya Nemenman, Justin C. Burton(参考訳) 自然システムを記述する科学的法則は、私たちの直観が扱えるものよりも複雑である可能性がある。 機械学習(ML)モデルは大量のデータを分析できるが、その構造は基礎となる物理的制約と一致して有用な洞察を提供する必要がある。 ここでは, 粉塵プラズマ実験において, 力の法則を推論するための物理的直観を取り入れたML手法を示す。 3d粒子軌道で訓練されたこのモデルは、固有対称性と非同一粒子を考慮し、粒子間の効果的な非相互力を正確に学習し、各粒子の質量と電荷を抽出する。 モデルの精度(R^2 > 0.99)は、現在の理論の解決を超えた、ほこり質プラズマにおける新しい物理学を指し、MLによるアプローチが多体系における新しい科学的発見経路をいかに導くかを示している。

Scientific laws describing natural systems may be more complex than our intuition can handle, and thus how we discover laws must change. Machine learning (ML) models can analyze large quantities of data, but their structure should match the underlying physical constraints to provide useful insight. Here we demonstrate a ML approach that incorporates such physical intuition to infer force laws in dusty plasma experiments. Trained on 3D particle trajectories, the model accounts for inherent symmetries and non-identical particles, accurately learns the effective non-reciprocal forces between particles, and extracts each particle's mass and charge. The model's accuracy (R^2 > 0.99) points to new physics in dusty plasma beyond the resolution of current theories and demonstrates how ML-powered approaches can guide new routes of scientific discovery in many-body systems.
翻訳日:2023-10-23 04:15:27 公開日:2023-10-08
# 自動テスト生成ツールは不安定なテストを生成するか?

Do Automatic Test Generation Tools Generate Flaky Tests? ( http://arxiv.org/abs/2310.05223v1 )

ライセンス: Link先を確認
Martin Gruber, Muhammad Firhard Roslan, Owain Parry, Fabian Scharnb\"ock, Phil McMinn, Gordon Fraser(参考訳) 非決定論的テスト行動(flakiness)は、開発者の間で一般的であり、恐れられている。 研究者はこの問題を研究し、緩和するためのアプローチを提案した。 しかし、以前の作業の大部分は開発者によるテストのみを考慮したものだった。 テスト生成ツールが生成するフレキなテストの頻度と性質はほとんど不明である。 このようなツールが不安定なテストを生成するのか、開発者によるテストとどのように違うのかを問う。 さらに, フレキなテスト生成を抑制する機構の評価を行った。 JavaまたはPythonで書かれた6つの356プロジェクトをサンプリングします。 プロジェクト毎にEvoSuite(Java)とPynguin(Python)を使ってテストを生成し、200回のテストを実行し、一貫性のない結果を探します。 この結果から, フレキネスは開発者の手書きテストと同様, 生成テストでも一般的であることが判明した。 それでも、EvoSuiteで実装された既存のフレキネス抑制機構は、この問題を軽減するのに有効である(71.7%のフレキネス試験)。 開発者によるフレキテストと比較すると、生成されたフレキテストの原因は異なる。 非決定論的行動はネットワークや並行性ではなく、ランダム性によって引き起こされることが多い。 フレキネス抑制法を用いて、残りのフレキネス試験は、実行時最適化やEvoSuite内部のリソースしきい値に起因する、これまで報告されたあらゆるフレキネスと大きく異なる。 これらの洞察は、関連するデータセットとともに、メンテナがテスト生成ツールの改善を支援し、これらのツールを使用する開発者にレコメンデーションを与え、テストフレキネスやテスト生成に関する将来の研究の基盤となる。

Non-deterministic test behavior, or flakiness, is common and dreaded among developers. Researchers have studied the issue and proposed approaches to mitigate it. However, the vast majority of previous work has only considered developer-written tests. The prevalence and nature of flaky tests produced by test generation tools remain largely unknown. We ask whether such tools also produce flaky tests and how these differ from developer-written ones. Furthermore, we evaluate mechanisms that suppress flaky test generation. We sample 6 356 projects written in Java or Python. For each project, we generate tests using EvoSuite (Java) and Pynguin (Python), and execute each test 200 times, looking for inconsistent outcomes. Our results show that flakiness is at least as common in generated tests as in developer-written tests. Nevertheless, existing flakiness suppression mechanisms implemented in EvoSuite are effective in alleviating this issue (71.7 % fewer flaky tests). Compared to developer-written flaky tests, the causes of generated flaky tests are distributed differently. Their non-deterministic behavior is more frequently caused by randomness, rather than by networking and concurrency. Using flakiness suppression, the remaining flaky tests differ significantly from any flakiness previously reported, where most are attributable to runtime optimizations and EvoSuite-internal resource thresholds. These insights, with the accompanying dataset, can help maintainers to improve test generation tools, give recommendations for developers using these tools, and serve as a foundation for future research in test flakiness or test generation.
翻訳日:2023-10-23 04:15:11 公開日:2023-10-08
# 安全な深層政策適応

Safe Deep Policy Adaptation ( http://arxiv.org/abs/2310.08602v1 )

ライセンス: Link先を確認
Wenli Xiao, Tairan He, John Dolan, Guanya Shi(参考訳) 自律性と人工知能の重要な目標は、自律ロボットが動的で不確実な環境で迅速に適応できるようにすることだ。 古典的な適応制御と安全制御は安定性と安全性の保証を提供するが、特定のシステムクラスに限定される。 対照的に、強化学習(RL)に基づく政策適応は、汎用性と一般化性を提供するが、安全性と堅牢性に挑戦する。 政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。 SafeDPAは、シミュレーションにおける適応ポリシーと動的モデルを共同で学習し、環境構成を予測する。 RLポリシー上の制御バリア関数(CBF)に基づく安全フィルタを導入し,実環境における安全性を確保する。 safedpaの理論的安全性保証を提供し,学習エラーや余分な摂動に対するsafedpaの堅牢性を示す。 1)古典的制御問題(逆振り子)、(2)シミュレーションベンチマーク(セーフティギム)、(3)現実のアジャイルロボティクスプラットフォーム(RC Car)に関する総合的な実験は、最先端のベースラインよりも安全性とタスクパフォーマンスの両方においてSafeDPAの優れた優位性を示す。 特にsafedpaは、実世界の実験で目に見えない混乱下で、ベースラインと比較して300%の安全性向上を達成している。

A critical goal of autonomy and artificial intelligence is enabling autonomous robots to rapidly adapt in dynamic and uncertain environments. Classic adaptive control and safe control provide stability and safety guarantees but are limited to specific system classes. In contrast, policy adaptation based on reinforcement learning (RL) offers versatility and generalizability but presents safety and robustness challenges. We propose SafeDPA, a novel RL and control framework that simultaneously tackles the problems of policy adaptation and safe reinforcement learning. SafeDPA jointly learns adaptive policy and dynamics models in simulation, predicts environment configurations, and fine-tunes dynamics models with few-shot real-world data. A safety filter based on the Control Barrier Function (CBF) on top of the RL policy is introduced to ensure safety during real-world deployment. We provide theoretical safety guarantees of SafeDPA and show the robustness of SafeDPA against learning errors and extra perturbations. Comprehensive experiments on (1) classic control problems (Inverted Pendulum), (2) simulation benchmarks (Safety Gym), and (3) a real-world agile robotics platform (RC Car) demonstrate great superiority of SafeDPA in both safety and task performance, over state-of-the-art baselines. Particularly, SafeDPA demonstrates notable generalizability, achieving a 300% increase in safety rate compared to the baselines, under unseen disturbances in real-world experiments.
翻訳日:2023-10-23 02:52:23 公開日:2023-10-08
# 感情分析のためのハイブリッド量子古典機械学習

Hybrid Quantum-Classical Machine Learning for Sentiment Analysis ( http://arxiv.org/abs/2310.10672v1 )

ライセンス: Link先を確認
Abu Kaisar Mohammad Masum, Anshul Maurya, Dhruthi Sridhar Murthy, Pratibha, Naveed Mahmud(参考訳) 量子コンピューティングと古典的機械学習のコラボレーションは、自然言語処理、特に大規模なデータセットで表現された人間の感情や意見の感情分析において潜在的な利点を提供する。 本研究では,量子古典型ハイブリッド機械学習アルゴリズムを用いた感情分析手法を提案する。 量子カーネルのアプローチと変分量子回路に基づく分類法を調査し、それらをpcaやハールウェーブレット変換のような古典的次元減少技術と統合する。 提案手法は英語とベンガル語に基づく2つの異なるデータセットを用いて評価される。 実験の結果,データの次元化後,量子ハイブリッドアルゴリズムの性能は古典的手法よりも一貫性があり良好であった。

The collaboration between quantum computing and classical machine learning offers potential advantages in natural language processing, particularly in the sentiment analysis of human emotions and opinions expressed in large-scale datasets. In this work, we propose a methodology for sentiment analysis using hybrid quantum-classical machine learning algorithms. We investigate quantum kernel approaches and variational quantum circuit-based classifiers and integrate them with classical dimension reduction techniques such as PCA and Haar wavelet transform. The proposed methodology is evaluated using two distinct datasets, based on English and Bengali languages. Experimental results show that after dimensionality reduction of the data, performance of the quantum-based hybrid algorithms were consistent and better than classical methods.
翻訳日:2023-10-23 02:19:54 公開日:2023-10-08
# 消去による道路障害の検出

Detecting Road Obstacles by Erasing Them ( http://arxiv.org/abs/2012.13633v3 )

ライセンス: Link先を確認
Krzysztof Lis, Sina Honari, Pascal Fua, Mathieu Salzmann(参考訳) 車両は道路上の無数の障害物に遭遇し、事前に記録して検知器を訓練することは不可能である。 代わりに、イメージパッチを選択し、それらのパッチから障害を取り除く傾向がある周辺の道路テクスチャに塗り込みます。 次に、元のパッチと塗布されたパッチとの相違を認識するためにトレーニングされたネットワークを使用し、消去された障害を通知します。

Vehicles can encounter a myriad of obstacles on the road, and it is impossible to record them all beforehand to train a detector. Instead, we select image patches and inpaint them with the surrounding road texture, which tends to remove obstacles from those patches. We then use a network trained to recognize discrepancies between the original patch and the inpainted one, which signals an erased obstacle.
翻訳日:2023-10-13 17:43:13 公開日:2023-10-08
# 自動車の深部強化学習対応フリーウェイ意思決定の比較分析

A Comparative Analysis of Deep Reinforcement Learning-enabled Freeway Decision-making for Automated Vehicles ( http://arxiv.org/abs/2008.01302v2 )

ライセンス: Link先を確認
Teng Liu, Yuyou Yang, Wenxuan Xiao, Xiaolin Tang, Mingzhu Yin(参考訳) 深層強化学習(DRL)は、人工知能の課題に対処するための広範かつ強力な方法論として登場した。 自律的な自己学習と自己改善の可能性を秘めているため、DRLは様々な研究領域に広く応用されている。 本稿では高速道路における自律走行車による意思決定課題を総合的に比較する。 これらのテクニックには、一般的な深度Q学習(DQL)、二重深度Q学習(DDQL)、深度Q学習のデュエル、深度Q学習の優先再生が含まれる。 当初、強化学習(RL)フレームワークを導入し、前述のDRL法の実装を数学的に確立することで、folを低くする。 その後、自動走行車の高速道路運転シナリオが構築され、意思決定問題を制御オプティマイズ課題として再構成する。 最後に、DRL対応意思決定戦略の制御性能を評価するための一連のシミュレーション実験を行った。 これは、自律運転結果とこれらのDRL技術に固有の学習シャル・アクテリスティックスとの関係を解明しようとする比較分析において決定される。

Deep reinforcement learning (DRL) has emerged as a pervasive and potent methodology for addressing artificial intelligence challenges. Due to its substantial potential for autonomous self-learning and self-improvement, DRL finds broad applications across various research domains. This article undertakes a comprehensive comparison of several DRL approaches con-cerning the decision-making challenges encountered by autono-mous vehicles on freeways. These techniques encompass common deep Q-learning (DQL), double deep Q-learning (DDQL), dueling deep Q-learning, and prioritized replay deep Q-learning. Initially, the reinforcement learning (RL) framework is introduced, fol-lowed by a mathematical establishment of the implementations of the aforementioned DRL methods. Subsequently, a freeway driving scenario for automated vehicles is constructed, wherein the decision-making problem is reformulated as a control opti-mization challenge. Finally, a series of simulation experiments are conducted to assess the control performance of these DRL-enabled decision-making strategies. This culminates in a comparative analysis, which seeks to elucidate the connection between autonomous driving outcomes and the learning char-acteristics inherent to these DRL techniques.
翻訳日:2023-10-13 17:42:09 公開日:2023-10-08
# 永続的エンタープライズシステムへの移行について

On migration to Perpetual Enterprise System ( http://arxiv.org/abs/2104.04844v4 )

ライセンス: Link先を確認
Manuel Tomas Carrasco Benitez(参考訳) この文書は、組織コンピュータシステムを永久に進化し、組織全体に対処し、統合される新しいシステムに移行するための実践的なアプローチを説明している。 ガバナンスの側面は、純粋に技術的なITの側面と同じくらい重要である。 移行は、グリーンフィールドから始まっていないことを意味する。

This document describes a pragmatic approach on how to migrate an organisation computer system towards a new system that could evolve forever, addresses the whole organisation and it is integrated. Governance aspects are as important, if not more, than purely technical IT aspects: human resources, call for tenders, and similar. Migration implies that one is not starting from a green field.
翻訳日:2023-10-13 17:32:12 公開日:2023-10-08
# 最適フェルミオン-量子マッピング

Optimal fermion-qubit mappings ( http://arxiv.org/abs/2110.12792v5 )

ライセンス: Link先を確認
Mitchell Chiew, Sergii Strelchuk(参考訳) 量子コンピュータ上のフェルミオン系をシミュレーションするには、フェルミオン状態の量子ビットへの高速なマッピングが必要である。 効率的なマッピングの特徴は、局所的なフェルミオン相互作用を局所的な量子ビット相互作用に変換する能力である。 すべてのフェルミオン・クビット写像は、クビット演算への変換のためにフェルミオンモードの番号スキームを使用する必要がある。 順序付けされていないフェルミオンのラベル付けと順序付けされたクォービットのラベル付けとを区別する。 この分離はフェルミオンモードの列挙スキームを利用してフェルミオン量子ビットマッピングを設計する新しい方法に光を当てる。 本論文の目的は,この概念が任意のコスト関数に対して最適であるフェルミオン量子ビット写像の概念を許容することを示すことである。 我々の主な例は、正方格子配置で相互作用するフェルミオンに対するハミルトニアンのヨルダン・ウィグナー変換におけるパウリ行列の平均数の最小化である。 ヨルダン・ウィグナー変換に最適なフェルミオンモードを選択する際、他の一般的な修正とは異なり、我々の処方薬はアンシラキュービットのような追加のリソースを消費しない。 ミッチソンとダービンの列挙パターンは、正方格子で相互作用するシステムのヨルダン・ウィグナー変換の平均ポーリ重みを最小化する。 これにより、クビット・ハミルトニアン(qubit hamiltonian)は、パウリの平均重量が13.9%短くなる。 わずか2つのアンシラ量子ビットを加えることで、新しいフェルミオン-量子写像のクラスを導入し、以前の方法と比較してハミルトン項の平均パウリ重量を37.9%削減する。 セルアレンジメントにおけるn$-モードフェルミオン系では、na\" スキームよりも平均的なパウリ重量が$n^{1/4}$向上する列挙パターンが見つかる。

Simulating fermionic systems on a quantum computer requires a high-performing mapping of fermionic states to qubits. A characteristic of an efficient mapping is its ability to translate local fermionic interactions into local qubit interactions, leading to easy-to-simulate qubit Hamiltonians. All fermion-qubit mappings must use a numbering scheme for the fermionic modes in order for translation to qubit operations. We make a distinction between the unordered labelling of fermions and the ordered labelling of the qubits. This separation shines light on a new way to design fermion-qubit mappings by making use of the enumeration scheme for the fermionic modes. The purpose of this paper is to demonstrate that this concept permits notions of fermion-qubit mappings that are optimal with regard to any cost function one might choose. Our main example is the minimisation of the average number of Pauli matrices in the Jordan-Wigner transformations of Hamiltonians for fermions interacting in square lattice arrangements. In choosing the best ordering of fermionic modes for the Jordan-Wigner transformation, and unlike other popular modifications, our prescription does not cost additional resources such as ancilla qubits. We demonstrate how Mitchison and Durbin's enumeration pattern minimises the average Pauli weight of Jordan-Wigner transformations of systems interacting in square lattices. This leads to qubit Hamiltonians consisting of terms with average Pauli weights 13.9% shorter than previously known. By adding only two ancilla qubits we introduce a new class of fermion-qubit mappings, and reduce the average Pauli weight of Hamiltonian terms by 37.9% compared to previous methods. For $n$-mode fermionic systems in cellular arrangements, we find enumeration patterns which result in $n^{1/4}$ improvement in average Pauli weight over na\"ive schemes.
翻訳日:2023-10-13 17:21:56 公開日:2023-10-08
# 非トレース保存量子演算における誤差メトリック

Error metric for non-trace-preserving quantum operations ( http://arxiv.org/abs/2110.02290v5 )

ライセンス: Link先を確認
Yu Shi, Edo Waks(参考訳) 本研究では,非トレース保存量子演算における誤差の測定問題について検討し,量子コンピューティングへの影響に着目した。 ダイヤモンド距離と互換性を維持しつつ,不完全かつ理想的な操作から正規化された出力状態の間のトレース距離の上限を効率的に求める誤差計量を提案する。 その応用の実証として,knill-laflamme-milburnプロトコルにおける2つの主要な非トレース保存操作である損失ビームスプリッタと非決定論的条件付きサインフリップゲートの解析に適用する。 そして、中性原子量子コンピュータの漏れエラーに目を向けると、これらのエラーは以前予想されていたよりも悪化し、耐障害しきい値がより厳しくなる。 また,量子ゼノゲートの誤差を測定基準を用いて評価する。 より広い文脈において、フォールトトレラント量子コンピューティングにおける誤差伝播の研究としきい値の推定に使用できる一般的なポスト選択プロトコルを分析するためのメトリクスの可能性について議論する。 その結果,現実的な量子情報処理における課題の理解と対処において,提案手法が果たす重要な役割を浮き彫りにした。

We study the problem of measuring errors in non-trace-preserving quantum operations, with a focus on their impact on quantum computing. We propose an error metric that efficiently provides an upper bound on the trace distance between the normalized output states from imperfect and ideal operations, while remaining compatible with the diamond distance. As a demonstration of its application, we apply our metric in the analysis of a lossy beam splitter and a nondeterministic conditional sign-flip gate, two primary non-trace-preserving operations in the Knill-Laflamme-Milburn protocol. We then turn to the leakage errors of neutral-atom quantum computers, finding that these errors scale worse than previously anticipated, implying a more stringent fault-tolerant threshold. We also assess the quantum Zeno gate's error using our metric. In a broader context, we discuss the potential of our metric to analyze general postselected protocols, where it can be employed to study error propagation and estimate thresholds in fault-tolerant quantum computing. The results highlight the critical role of our proposed error metric in understanding and addressing challenges in practical quantum information processing.
翻訳日:2023-10-13 17:20:49 公開日:2023-10-08
# ULF: Cross-Validation を用いた非教師付きラベリング関数補正

ULF: Unsupervised Labeling Function Correction using Cross-Validation for Weak Supervision ( http://arxiv.org/abs/2204.06863v2 )

ライセンス: Link先を確認
Anastasiia Sedova, Benjamin Roth(参考訳) 手動ラベリングの費用対効果は弱い監督(WS)であり、データサンプルは事前に定義されたラベリング関数のセット(LF)を使って自動的にアノテートされ、関連するクラスの人工ラベリングを生成するルールベースのメカニズムである。 そこで本研究では,k-foldクロスバリデーションの原理に基づくWSのノイズ低減手法について検討する。 非教師付きラベル関数補正のための新しいアルゴリズムULFを導入し、いくつかのLF以外のモデルで訓練されたモデルを利用してWSデータを識別し、保持されたLFに固有のバイアスを補正する。 特にULFは、高信頼性のクロスバリデーションサンプルにこの割り当てを再見積することで、クラスへのLFの割り当てを洗練します。 複数データセットの評価は、手動ラベリングを必要とせず、WS学習の強化におけるULFの有効性を確認する

A cost-effective alternative to manual data labeling is weak supervision (WS), where data samples are automatically annotated using a predefined set of labeling functions (LFs), rule-based mechanisms that generate artificial labels for the associated classes. In this work, we investigate noise reduction techniques for WS based on the principle of k-fold cross-validation. We introduce a new algorithm ULF for Unsupervised Labeling Function correction, which denoises WS data by leveraging models trained on all but some LFs to identify and correct biases specific to the held-out LFs. Specifically, ULF refines the allocation of LFs to classes by re-estimating this assignment on highly reliable cross-validated samples. Evaluation on multiple datasets confirms ULF's effectiveness in enhancing WS learning without the need for manual labeling
翻訳日:2023-10-13 17:02:27 公開日:2023-10-08
# 非校正型マルチカメラシステムによる移動構造制約付きバンドル調整

Constrained Bundle Adjustment for Structure From Motion Using Uncalibrated Multi-Camera Systems ( http://arxiv.org/abs/2204.04145v2 )

ライセンス: Link先を確認
Debao Huang, Mostafa Elhashash, Rongjun Qin(参考訳) 非対応マルチカメラシステムによる動作からの構造構築は難しい課題である。 本稿では,これらのカメラが静的であることを示すベースライン制約を実装したバンドル調整ソリューションを提案する。 これらのカメラはモバイルプラットフォームに搭載され、非対応で、粗く同期していると仮定します。 そこで本研究では,カメラのビューが重なり合うシナリオを定式化したベースライン制約を提案する。 制約は、異なるカメラの相対運動を静的に保つために、バンドル調整ソリューションに組み込まれる。 システムキャリブレーションのない車両に搭載された2台のgoproカメラのビデオフレームを用いて実験を行った。 この2台のカメラは重なり合う内容を捉えた。 提案する制約を用いてバンドル調整を行い,3次元高密度点雲を作成した。 これらの高密度点雲とLiDAR参照データを比較して評価を行った。 従来のバンドル調整と比較して,提案手法は29.38%の改善を実現した。

Structure from motion using uncalibrated multi-camera systems is a challenging task. This paper proposes a bundle adjustment solution that implements a baseline constraint respecting that these cameras are static to each other. We assume these cameras are mounted on a mobile platform, uncalibrated, and coarsely synchronized. To this end, we propose the baseline constraint that is formulated for the scenario in which the cameras have overlapping views. The constraint is incorporated in the bundle adjustment solution to keep the relative motion of different cameras static. Experiments were conducted using video frames of two collocated GoPro cameras mounted on a vehicle with no system calibration. These two cameras were placed capturing overlapping contents. We performed our bundle adjustment using the proposed constraint and then produced 3D dense point clouds. Evaluations were performed by comparing these dense point clouds against LiDAR reference data. We showed that, as compared to traditional bundle adjustment, our proposed method achieved an improvement of 29.38%.
翻訳日:2023-10-13 17:01:46 公開日:2023-10-08
# ランダムに初期化した1層ニューラルネットワークによるデータ分離

Randomly Initialized One-Layer Neural Networks Make Data Linearly Separable ( http://arxiv.org/abs/2205.11716v2 )

ライセンス: Link先を確認
Promit Ghosal, Srinath Mahankali, Yihang Sun(参考訳) 近年、ニューラルネットワークは、2つの任意の集合を2つの線形分離可能な集合にマッピングする顕著な能力を示している。 これをランダムに初期化したニューラルネットワークで実現する見通しは、完全に訓練されたネットワークと比較して計算効率が優れているため特に魅力的である。 本稿では, 十分な幅が与えられた場合, ランダムに初期化した一層ニューラルネットワークは, 高い確率で2つの集合を2つの線形分離可能な集合に変換できることを示す。 さらに、この現象が起こるためのニューラルネットワークの必要な幅の正確な境界を提供する。 我々の初期境界は、他の全てのパラメータの多項式依存を維持しながら、入力次元に指数関数的依存を示す。 対照的に、我々の2番目の境界は入力次元とは独立であり、事実上次元の呪いを克服している。 この証明で使われる主なツールは、幾何学的原理とランダム行列の集中の融合に大きく依存している。

Recently, neural networks have demonstrated remarkable capabilities in mapping two arbitrary sets to two linearly separable sets. The prospect of achieving this with randomly initialized neural networks is particularly appealing due to the computational efficiency compared to fully trained networks. This paper contributes by establishing that, given sufficient width, a randomly initialized one-layer neural network can, with high probability, transform two sets into two linearly separable sets without any training. Moreover, we furnish precise bounds on the necessary width of the neural network for this phenomenon to occur. Our initial bound exhibits exponential dependence on the input dimension while maintaining polynomial dependence on all other parameters. In contrast, our second bound is independent of input dimension, effectively surmounting the curse of dimensionality. The main tools used in our proof heavily relies on a fusion of geometric principles and concentration of random matrices.
翻訳日:2023-10-13 16:51:56 公開日:2023-10-08
# 敵対的攻撃に対する連続学習の感受性

Susceptibility of Continual Learning Against Adversarial Attacks ( http://arxiv.org/abs/2207.05225v5 )

ライセンス: Link先を確認
Hikmat Khan, Pir Masoom Shah, Syed Farhan Alam Zaidi, Saif ul Islam, Qasim Zia(参考訳) 最近の継続的な学習アプローチは主に破滅的な忘れを緩和することに焦点を当てている。 しかし、2つの重要な領域は比較的未発見のままである。 1)提案手法のロバスト性の評価及び評価 2)学習課題の安全性の確保。 本稿では,現在および以前取得したタスクを含む継続的な学習課題の敵攻撃に対する感受性について検討する。 具体的には、任意のタスクに属するクラスが、他のタスクの希望するターゲットクラスとして簡単にターゲットと誤分類できることを観察しました。 このような学習タスクの攻撃に対する感受性や脆弱性は、データの完全性とプライバシに関する深刻な懸念を引き起こす。 連続学習アプローチのロバスト性を評価するために,タスク・インクリメンタル学習,ドメイン・インクリメンタル学習,クラスインクリメンタル学習という3つのシナリオすべてにおいて,連続学習アプローチを検討する。 本稿では,正規化に基づく3つの手法,リプレイに基づく3つのアプローチ,リプレイと模範的アプローチを組み合わせた1つのハイブリッド手法の堅牢性について検討する。 実験により, 連続学習のあらゆる場面において, 現行や以前に学習されたタスクに属するあらゆるクラスが, 誤分類の影響を受けやすいことを示した。 本研究は, 対人攻撃に対する連続学習アプローチの潜在的な限界を特定し, 現在の連続学習アルゴリズムが実環境への展開に適さないことを強調した。

Recent continual learning approaches have primarily focused on mitigating catastrophic forgetting. Nevertheless, two critical areas have remained relatively unexplored: 1) evaluating the robustness of proposed methods and 2) ensuring the security of learned tasks. This paper investigates the susceptibility of continually learned tasks, including current and previously acquired tasks, to adversarial attacks. Specifically, we have observed that any class belonging to any task can be easily targeted and misclassified as the desired target class of any other task. Such susceptibility or vulnerability of learned tasks to adversarial attacks raises profound concerns regarding data integrity and privacy. To assess the robustness of continual learning approaches, we consider continual learning approaches in all three scenarios, i.e., task-incremental learning, domain-incremental learning, and class-incremental learning. In this regard, we explore the robustness of three regularization-based methods, three replay-based approaches, and one hybrid technique that combines replay and exemplar approaches. We empirically demonstrated that in any setting of continual learning, any class, whether belonging to the current or previously learned tasks, is susceptible to misclassification. Our observations identify potential limitations of continual learning approaches against adversarial attacks and highlight that current continual learning algorithms could not be suitable for deployment in real-world settings.
翻訳日:2023-10-13 16:41:12 公開日:2023-10-08
# sarnet:大規模都市点雲のセマンティック拡張登録

SARNet: Semantic Augmented Registration of Large-Scale Urban Point Clouds ( http://arxiv.org/abs/2206.13117v2 )

ライセンス: Link先を確認
Chao Liu, Jianwei Guo, Dong-Ming Yan, Zhirong Liang, Xiaopeng Zhang, Zhanglin Cheng(参考訳) LiDARスキャンデータの大規模、ノイズ、データ不完全性のため、都市点雲の登録は非常に難しい作業である。 本稿では,都市規模での都市点雲の効率的な登録を実現するためのセマンティック登録ネットワークであるSARNetを提案する。 ポイントレベルの空間のみに対応を組み込む従来の手法とは異なり,本手法は,登録精度の向上を支援するため,意味的特徴を完全に活用する。 具体的には,高度な意味セグメンテーションネットワークを用いた点単位の意味ラベルを抽出し,先行する意味部分間対応を構築する。 Then we incorporate the semantic information into a learning-based registration pipeline, consisting of three core modules: a semantic-based farthest point sampling module to efficiently filter out outliers and dynamic objects; a semantic-augmented feature extraction module for learning more discriminative point descriptors; a semantic-refined transformation estimation module that utilizes prior semantic matching as a mask to refine point correspondences by reducing false matching for better convergence. 提案したSARNetを,都市域の広い地域からの実世界データを用いて広域に評価し,代替手法と比較した。 コードはhttps://github.com/WinterCodeForEverything/SARNetで公開されている。

Registering urban point clouds is a quite challenging task due to the large-scale, noise and data incompleteness of LiDAR scanning data. In this paper, we propose SARNet, a novel semantic augmented registration network aimed at achieving efficient registration of urban point clouds at city scale. Different from previous methods that construct correspondences only in the point-level space, our approach fully exploits semantic features as assistance to improve registration accuracy. Specifically, we extract per-point semantic labels with advanced semantic segmentation networks and build a prior semantic part-to-part correspondence. Then we incorporate the semantic information into a learning-based registration pipeline, consisting of three core modules: a semantic-based farthest point sampling module to efficiently filter out outliers and dynamic objects; a semantic-augmented feature extraction module for learning more discriminative point descriptors; a semantic-refined transformation estimation module that utilizes prior semantic matching as a mask to refine point correspondences by reducing false matching for better convergence. We evaluate the proposed SARNet extensively by using real-world data from large regions of urban scenes and comparing it with alternative methods. The code is available at https://github.com/WinterCodeForEverything/SARNet.
翻訳日:2023-10-13 16:40:33 公開日:2023-10-08
# αFold2の精密造園学習とタンパク質構造予測のための教師なしプロンプト

Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate Folding Landscape and Protein Structure Prediction ( http://arxiv.org/abs/2208.09652v2 )

ライセンス: Link先を確認
Jun Zhang, Sirui Liu, Mengyun Chen, Haotian Chu, Min Wang, Zidong Wang, Jialiang Yu, Ningxi Ni, Fan Yu, Diqing Chen, Yi Isaac Yang, Boxin Xue, Lijiang Yang, Yuan Liu and Yi Qin Gao(参考訳) タンパク質配列を生物学的に活性な構造に効率的かつ正確に変換できるデータ駆動予測法は、科学研究や医学開発に非常に有用である。 共進化情報を用いた正確な折りたたみ景観の決定は、現代のタンパク質構造予測手法の成功に不可欠である。 技術の現状として、AlphaFold2は明示的な共進化分析を行うことなく精度を劇的に向上させた。 それでも、その性能は利用可能なシーケンスホモログに強く依存している。 このような依存の原因に関する尋問に基づいて, 貧弱なmsaターゲットに対するαfold2の低性能を改善するためのメタ生成モデルであるevogenを提示した。 モデルのキャリブレーションや事実上生成されたホモローグシーケンスを促すことで、evogenは低データ環境でalphafold2を正確に折り畳むのを助け、シングルシーケンスの予測でパフォーマンスを向上させる。 少数ショットのMSAで正確な予測を行えるようになると、AlphaFold2は孤児のシーケンスをより良く一般化するだけでなく、高スループットアプリケーションでの使用を民主化できる。 さらに、EvoGenとAlphaFold2を組み合わせることで、タンパク質配列の代替コンフォメーションを探索できる確率的構造生成法が得られ、配列生成のためのタスク認識微分アルゴリズムは、タンパク質設計を含む他の関連するタスクの恩恵を受ける。

Data-driven predictive methods which can efficiently and accurately transform protein sequences into biologically active structures are highly valuable for scientific research and medical development. Determining accurate folding landscape using co-evolutionary information is fundamental to the success of modern protein structure prediction methods. As the state of the art, AlphaFold2 has dramatically raised the accuracy without performing explicit co-evolutionary analysis. Nevertheless, its performance still shows strong dependence on available sequence homologs. Based on the interrogation on the cause of such dependence, we presented EvoGen, a meta generative model, to remedy the underperformance of AlphaFold2 for poor MSA targets. By prompting the model with calibrated or virtually generated homologue sequences, EvoGen helps AlphaFold2 fold accurately in low-data regime and even achieve encouraging performance with single-sequence predictions. Being able to make accurate predictions with few-shot MSA not only generalizes AlphaFold2 better for orphan sequences, but also democratizes its use for high-throughput applications. Besides, EvoGen combined with AlphaFold2 yields a probabilistic structure generation method which could explore alternative conformations of protein sequences, and the task-aware differentiable algorithm for sequence generation will benefit other related tasks including protein design.
翻訳日:2023-10-13 16:32:24 公開日:2023-10-08
# Txt2Img-MHN:現代ホップフィールドネットワークを用いたテキストからのリモートセンシング画像生成

Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern Hopfield Networks ( http://arxiv.org/abs/2208.04441v2 )

ライセンス: Link先を確認
Yonghao Xu, Weikang Yu, Pedram Ghamisi, Michael Kopp, and Sepp Hochreiter(参考訳) テキスト記述に基づく高解像度リモートセンシング画像の合成は多くの応用シナリオにおいて大きな可能性を秘めている。 深層ニューラルネットワークは多くの重要なリモートセンシングタスクで大きな成功を収めているが、テキスト記述からリアルなリモートセンシング画像を生成することは依然として非常に難しい。 そこで本研究では,新しいテキスト・ツー・イメージ型ホップフィールドネットワーク(Txt2Img-MHN)を提案する。 Txt2Img-MHNの主な考え方は、テキストと画像の埋め込みを現代的なホップフィールド層で階層的に学習することである。 txt2img-mhnは、テキスト画像埋め込みから最も代表的なプロトタイプを学習し、粒度の粗い学習戦略を達成することを目的としている。 これらの学習されたプロトタイプは、テキストから画像への生成タスクでより複雑な意味を表現するために利用することができる。 生成画像のリアリズムと意味的一貫性をよりよく評価するために,合成画像に訓練された分類モデルを用いて,実リモートセンシングデータに対してゼロショット分類を行う。 その単純さにもかかわらず、ゼロショット分類の全体的な正確さは、テキストから画像を生成する能力を評価する良い指標になり得る。 提案したTxt2Img-MHNは既存の方法よりもリアルなリモートセンシング画像を生成することができる。 コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/YonghaoXu/Txt2Img-MHN)。

The synthesis of high-resolution remote sensing images based on text descriptions has great potential in many practical application scenarios. Although deep neural networks have achieved great success in many important remote sensing tasks, generating realistic remote sensing images from text descriptions is still very difficult. To address this challenge, we propose a novel text-to-image modern Hopfield network (Txt2Img-MHN). The main idea of Txt2Img-MHN is to conduct hierarchical prototype learning on both text and image embeddings with modern Hopfield layers. Instead of directly learning concrete but highly diverse text-image joint feature representations for different semantics, Txt2Img-MHN aims to learn the most representative prototypes from text-image embeddings, achieving a coarse-to-fine learning strategy. These learned prototypes can then be utilized to represent more complex semantics in the text-to-image generation task. To better evaluate the realism and semantic consistency of the generated images, we further conduct zero-shot classification on real remote sensing data using the classification model trained on synthesized images. Despite its simplicity, we find that the overall accuracy in the zero-shot classification may serve as a good metric to evaluate the ability to generate an image from text. Extensive experiments on the benchmark remote sensing text-image dataset demonstrate that the proposed Txt2Img-MHN can generate more realistic remote sensing images than existing methods. Code and pre-trained models are available online (https://github.com/YonghaoXu/Txt2Img-MHN).
翻訳日:2023-10-13 16:31:15 公開日:2023-10-08
# SIAD:自己監督型画像異常検出システム

SIAD: Self-supervised Image Anomaly Detection System ( http://arxiv.org/abs/2208.04173v2 )

ライセンス: Link先を確認
Jiawei Li, Chenxi Lan, Xinyi Zhang, Bolin Jiang, Yuqiu Xie, Naiqi Li, Yan Liu, Yaowei Li, Enze Huo, Bin Chen(参考訳) AIGCの最近の傾向は視覚検査の適用を効果的に促進した。 しかし、利用可能なシステムのほとんどは、ループ内人間で動作し、オンラインアプリケーションに対して長期的なサポートを提供できない。 そこで本論文では, 自動化シナリオにおけるオンライン視覚検査を連続的に行うための, 自己指導型学習方式による自動アノテーションシステムであるSsaAについて概説する。 自己指導型学習の恩恵を受け、SsaAは製造ライフサイクル全体の視覚検査アプリケーションを確立するのに有効である。 初期の段階では、異常のないデータのみを使用して、教師なしのアルゴリズムがプリテキストタスクを処理し、以下のデータに対して粗いラベルを生成する。 そして、下流タスクのために教師付きアルゴリズムを訓練する。 ユーザフレンドリーなWebベースのインターフェースにより、SsaAは教師なしアルゴリズムと教師なしアルゴリズムの両方を統合するのに非常に便利である。 これまでのところ、SsaAシステムは実際の産業用途に採用されている。

Recent trends in AIGC effectively boosted the application of visual inspection. However, most of the available systems work in a human-in-the-loop manner and can not provide long-term support to the online application. To make a step forward, this paper outlines an automatic annotation system called SsaA, working in a self-supervised learning manner, for continuously making the online visual inspection in the manufacturing automation scenarios. Benefit from the self-supervised learning, SsaA is effective to establish a visual inspection application for the whole life-cycle of manufacturing. In the early stage, with only the anomaly-free data, the unsupervised algorithms are adopted to process the pretext task and generate coarse labels for the following data. Then supervised algorithms are trained for the downstream task. With user-friendly web-based interfaces, SsaA is very convenient to integrate and deploy both of the unsupervised and supervised algorithms. So far, the SsaA system has been adopted for some real-life industrial applications.
翻訳日:2023-10-13 16:30:47 公開日:2023-10-08
# デバイスに依存しない暗号化

Device-independent uncloneable encryption ( http://arxiv.org/abs/2210.01058v3 )

ライセンス: Link先を確認
Srijita Kundu and Ernest Y.-Z. Tan(参考訳) broadbent と lord (tqc 2020) によって初めて導入されたuncloneable encryption は、2つの非共用者の間で量子暗号文が分散できない量子暗号スキームである。 そこで本研究では,複数の復号化鍵が特定の暗号を復号化でき,かつ,独立して生成した復号化鍵を受信した2つの当事者が基盤となる暗号文を学習できないことをセキュリティ要件とする,解読不能暗号の変種を提案する。 この変種は、デバイス独立に、すなわち、このスキームで使用される量子状態や測定を信頼せずに達成できることを示し、この変種は、量子マネーの構築における当初の定義と同様に機能する。 さらに,本手法の簡単な変更により,Georgiou と Zhandry が導入した関連概念である単一復号器暗号方式が得られた。 特に、単一復号化暗号方式は、ランダム平文に対するセキュリティの標準的な定義に関して、デバイス非依存のセキュリティを実現する。 最後に,量子乱数オラクルモデルを必要とせず,完全なアンチ海賊対策を実現する単一ビットメッセージに対して,単一復号器暗号方式を特に有する2次元シナリオに対して,“エクストラクタ”の結果を導出する。

Uncloneable encryption, first introduced by Broadbent and Lord (TQC 2020) is a quantum encryption scheme in which a quantum ciphertext cannot be distributed between two non-communicating parties such that, given access to the decryption key, both parties cannot learn the underlying plaintext. In this work, we introduce a variant of uncloneable encryption in which several possible decryption keys can decrypt a particular encryption, and the security requirement is that two parties who receive independently generated decryption keys cannot both learn the underlying ciphertext. We show that this variant of uncloneable encryption can be achieved device-independently, i.e., without trusting the quantum states and measurements used in the scheme, and that this variant works just as well as the original definition in constructing quantum money. Moreover, we show that a simple modification of our scheme yields a single-decryptor encryption scheme, which was a related notion introduced by Georgiou and Zhandry. In particular, the resulting single-decryptor encryption scheme achieves device-independent security with respect to a standard definition of security against random plaintexts. Finally, we derive an "extractor" result for a two-adversary scenario, which in particular yields a single-decryptor encryption scheme for single bit-messages that achieves perfect anti-piracy security without needing the quantum random oracle model.
翻訳日:2023-10-13 16:09:34 公開日:2023-10-08
# 大マルジンソフトマックスにおける確率依存性勾配減衰

Probability-Dependent Gradient Decay in Large Margin Softmax ( http://arxiv.org/abs/2210.17145v2 )

ライセンス: Link先を確認
Siyuan Zhang and Linbo Xie and Ying Chen(参考訳) ここ数年、Softmaxはニューラルネットワークフレームワークの共通コンポーネントになっている。 本稿では,ソフトマックスに勾配減衰ハイパーパラメータを導入し,トレーニング中の確率依存性の勾配減衰率を制御する。 MNIST, CIFAR-10/100, SVHNで訓練された各種モデルアーキテクチャの理論的解析と実証結果に従えば, 信頼確率が上昇するにつれて, 一般化性能は勾配減衰率に大きく依存することがわかった。 また,小さな勾配減衰による最適化は,簡単なサンプルを十分に信頼した後にのみ,ハードサンプルがスポットライトに晒されるような,類似したカリキュラム学習シーケンスを示し,高度に分離されたサンプルはクラス間距離を減らすために高い勾配を得る。 解析結果から,確率依存性の勾配減衰率を調節することにより,ソフトマックスが損失関数の局所リプシッツ制約に影響を及ぼすことを示すことができる。 本稿では,大縁ソフトマックス,局所リプシッツ制約,カリキュラム学習の概念間の,勾配減衰率の分析による新しい視点と理解について述べる。 さらに, トレーニングにおけるソフトマックス損失を動的に調整するウォームアップ戦略を提案し, 勾配減衰率を過小値から増加させ, 収束速度を高速化する。

In the past few years, Softmax has become a common component in neural network frameworks. In this paper, a gradient decay hyperparameter is introduced in Softmax to control the probability-dependent gradient decay rate during training. By following the theoretical analysis and empirical results of a variety of model architectures trained on MNIST, CIFAR-10/100 and SVHN, we find that the generalization performance depends significantly on the gradient decay rate as the confidence probability rises, i.e., the gradient decreases convexly or concavely as the sample probability increases. Moreover, optimization with the small gradient decay shows a similar curriculum learning sequence where hard samples are in the spotlight only after easy samples are convinced sufficiently, and well-separated samples gain a higher gradient to reduce intra-class distance. Based on the analysis results, we can provide evidence that the large margin Softmax will affect the local Lipschitz constraint of the loss function by regulating the probability-dependent gradient decay rate. This paper provides a new perspective and understanding of the relationship among concepts of large margin Softmax, local Lipschitz constraint and curriculum learning by analyzing the gradient decay rate. Besides, we propose a warm-up strategy to dynamically adjust Softmax loss in training, where the gradient decay rate increases from over-small to speed up the convergence rate.
翻訳日:2023-10-13 15:59:38 公開日:2023-10-08
# コヒーレンス生成による低温量子温度測定

Low-temperature quantum thermometry boosted by coherence generation ( http://arxiv.org/abs/2211.05461v3 )

ライセンス: Link先を確認
Asghar Ullah, M. Tahir Naseem, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 温度を正確に測定することは、物理プロセスと技術応用の基本的な理解にとって重要である。 本研究では,温度計プローブに量子コヒーレンスを生成することで,温度範囲と感度を向上させる低温測定法を提案する。 通常、温度測定では、プローブは試料を測定して熱化する。 しかし、我々は2レベル量子システム(qubit)をプローブとして使用し、ancilla qubitsのセットをインターフェースとして導入することにより、サンプルへの直接プローブアクセスを防止する。 大域的マスター方程式を用いてプローブの開系力学を記述し、アンシラ-プローブ系が試料と熱分解する一方、プローブは非局所散逸チャネルにより非熱的定常状態へと進化することを示した。 この定常状態の個体数とコヒーレンスはサンプル温度に依存するため、高精度で広い範囲の低温推定が可能となる。 量子フィッシャー情報を用いて,本手法の温度測定性能を特徴付け, 量子コヒーレンスの増加とアンシラ量子ビット数の増加により, 異なる低温で複数の高いピークを示すことができることを示す。 本研究では, 温度依存量子コヒーレンスを持つ非熱量子温度計プローブを用いて, 温度推定の感度を高め, 測定可能な低温範囲を広げる手法を提案する。

Precisely measuring low temperatures is significant both for the fundamental understanding of physical processes and technological applications. In this work, we present a method for low-temperature measurement that improves thermal range and sensitivity by generating quantum coherence in a thermometer probe. Typically, in temperature measurements, the probes thermalize with the sample being measured. However, we use a two-level quantum system, or qubit, as our probe and prevent direct probe access to the sample by introducing a set of ancilla qubits as an interface. We describe the open system dynamics of the probe using a global master equation and demonstrate that while the ancilla-probe system thermalizes with the sample, the probe per se evolves into a non-thermal steady state due to nonlocal dissipation channels. The populations and coherences of this steady state depend on the sample temperature, allowing for precise and wide-range low temperature estimation. We characterize the thermometric performance of the method using quantum Fisher information and show that the quantum Fisher information can exhibit multiple and higher peaks at different low temperatures with increasing quantum coherence and the number of ancilla qubits. Our analysis reveals that the proposed approach, using non-thermal qubit thermometer probe with temperature dependent quantum coherence generated by a multiple qubit interface between a thermal sample and the probe qubit, can enhance the sensitivity of temperature estimation and broaden the measurable low temperature range.
翻訳日:2023-10-13 15:48:15 公開日:2023-10-08
# 自己教師型音声モデルに対するモデル抽出攻撃

Model Extraction Attack against Self-supervised Speech Models ( http://arxiv.org/abs/2211.16044v2 )

ライセンス: Link先を確認
Tsu-Yuan Hsu, Chen-An Li, Tung-Yu Wu, Hung-yi Lee(参考訳) 自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成し、様々な下流タスクで素晴らしいパフォーマンスを達成する。 モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。 本研究では,少数のクエリを持つSSL音声モデルに対するMEA問題について検討する。 モデル抽出のための2段階フレームワークを提案する。 第1段階では、SSLは大規模未ラベルコーパス上で実施され、小さな音声モデルを事前訓練する。 第2に,ラベルのないコーパスから少数のクリップを積極的にサンプリングし,これらのクリップでターゲットモデルを照会し,その表現をラベルとして取得し,第2段階のトレーニングを行う。 実験の結果,本手法はモデル構造に関する情報を知らずに対象モデルを効果的に抽出できることがわかった。

Self-supervised learning (SSL) speech models generate meaningful representations of given clips and achieve incredible performance across various downstream tasks. Model extraction attack (MEA) often refers to an adversary stealing the functionality of the victim model with only query access. In this work, we study the MEA problem against SSL speech model with a small number of queries. We propose a two-stage framework to extract the model. In the first stage, SSL is conducted on the large-scale unlabeled corpus to pre-train a small speech model. Secondly, we actively sample a small portion of clips from the unlabeled corpus and query the target model with these clips to acquire their representations as labels for the small model's second-stage training. Experiment results show that our sampling methods can effectively extract the target model without knowing any information about its model architecture.
翻訳日:2023-10-13 15:36:49 公開日:2023-10-08
# マスケード言語モデルによる条件の整合性について

On the Inconsistencies of Conditionals Learned by Masked Language Models ( http://arxiv.org/abs/2301.00068v2 )

ライセンス: Link先を確認
Tom Young, Yang You(参考訳) シーケンス内のマスクトークンを予測する学習は、大規模言語モデルにとって強力な事前学習目標であることが示されている。 トレーニング後、このようなマスキング言語モデルは、双方向コンテキストで条件付けられたトークンの分布を提供することができる。 本稿では, 一般的な仮定とは対照的に, 両方向条件付き条件付きでは, かなりの不整合がしばしば示され, 両者が一緒に考えると, コヒーレントなジョイント分布から導出できないことを示した。 マスク言語モデルの一般的なスタイルである t5 形式と bert 形式について,bigram 比較の単純なシナリオにおいて,このような不一致を実証的に定量化する。 例えば、T5モデルは2つの類似のビッグラムに対する好みを混乱させることが多い。 本稿では,RoBERTa-base から GLM-130B に至るまで,さまざまなサイズや構成のマスキング言語モデルにおいて,不整合が至るところに存在することを示す。 推論フェーズにおいてこの問題に対処するための最初の試みとして,MLMが直接生成する多くの不整合条件を協調的に考慮し,モデルの最終出力として使用される分布を合成する自己アンサンブルアルゴリズムであるEnsemble of Conditionalsを提案する。 このようなアンサンブルは、LAMBADAのオープンソースSOTA結果を改善する。

Learning to predict masked tokens in a sequence has been shown to be a powerful pretraining objective for large language models. After training, such masked language models can provide distributions of tokens conditioned on bidirectional context. In this paper, we show that contrary to popular assumptions, such bidirectional conditionals often demonstrate considerable inconsistencies, i.e., they cannot be derived from a coherent joint distribution when considered together. We empirically quantify such inconsistencies in the simple scenario of bigram comparison for two common styles of masked language models: T5-style and BERT-style. For example, we show that T5 models often confuse their own preference regarding two similar bigrams. We show that inconsistencies exist ubiquitously in masked language models of diverse sizes and configurations, from RoBERTa-base to GLM-130B. As an initial attempt to address this issue during the inference phase, we propose Ensemble of Conditionals, a self-ensemble algorithm that jointly considers many inconsistent conditionals directly produced by the MLM to synthesize a distribution that is used as the model's final output. Such ensembling improves open-source SOTA results on LAMBADA.
翻訳日:2023-10-13 15:29:19 公開日:2023-10-08
# ビデオ予測のためのエンコーダデコーダLSTMを用いた予測符号化に基づくマルチスケールネットワーク

Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for Video Prediction ( http://arxiv.org/abs/2212.11642v3 )

ライセンス: Link先を確認
Chaofan Ling, Junpei Zhong and Weihua Li(参考訳) 将来のビデオフレーム予測のためのマルチスケール予測符号化モデルを提案する。 認知科学における「予測的コーディング」理論に着想を得て、ボトムアップとトップダウンの情報フローの組み合わせによって更新され、異なるネットワークレベル間の相互作用が強化される。 しかし、従来の予測コーディングモデルは、未来を予測するのではなく、階層的に起きていることを予測しているだけである。 この問題に対処するために,高レベルニューロンがより粗い予測(低分解能)を生成し,低レベルニューロンがより細かい予測(高分解能)を生成するマルチスケールアプローチ(細粒度)を採用している。 ネットワークアーキテクチャに関しては,LSTMモジュールにエンコーダ・デコーダネットワークを直接組み込んで,複数のネットワークレベルにまたがる最終的なエンコーダ・ハイレベルセマンティック情報を共有する。 これにより、従来のEncoder-LSTM-Decoderアーキテクチャと比較して、現在の入力とLSTMの履歴状態との包括的な相互作用が可能となり、時間的および空間的依存関係の信頼性が向上する。 さらに, 対向訓練における不安定性に取り組み, 長期予測における予測誤差の蓄積を緩和するために, 訓練戦略のいくつかの改善を提案する。 提案手法は,KTH,Moving MNIST,Caltech Pedestrianなどのデータセット上での優れたパフォーマンスを実現する。 コードはhttps://github.com/Ling-CF/MSPNで入手できる。

We present a multi-scale predictive coding model for future video frames prediction. Drawing inspiration on the ``Predictive Coding" theories in cognitive science, it is updated by a combination of bottom-up and top-down information flows, which can enhance the interaction between different network levels. However, traditional predictive coding models only predict what is happening hierarchically rather than predicting the future. To address the problem, our model employs a multi-scale approach (Coarse to Fine), where the higher level neurons generate coarser predictions (lower resolution), while the lower level generate finer predictions (higher resolution). In terms of network architecture, we directly incorporate the encoder-decoder network within the LSTM module and share the final encoded high-level semantic information across different network levels. This enables comprehensive interaction between the current input and the historical states of LSTM compared with the traditional Encoder-LSTM-Decoder architecture, thus learning more believable temporal and spatial dependencies. Furthermore, to tackle the instability in adversarial training and mitigate the accumulation of prediction errors in long-term prediction, we propose several improvements to the training strategy. Our approach achieves good performance on datasets such as KTH, Moving MNIST and Caltech Pedestrian. Code is available at https://github.com/Ling-CF/MSPN.
翻訳日:2023-10-13 15:28:13 公開日:2023-10-08
# state of art visionモデルにおける分散性能の欠如

Out of Distribution Performance of State of Art Vision Model ( http://arxiv.org/abs/2301.10750v3 )

ライセンス: Link先を確認
Salman Rahman and Wonkwon Lee(参考訳) 視覚変換器(ViT)は、視覚認識タスクの最先端に進歩した。 最新の研究によると、トランスフォーマーはCNNよりも堅牢だ。 ViTの自己保持機構は、CNNよりも堅牢である。 それにもかかわらず、これらの結論は不公平な実験条件に基づいており、いくつかのモデルを比較するだけで、ロバストネス性能の全シナリオを表現できないことがわかった。 本研究では,注意と畳み込みのメカニズムだけでなく,畳み込みと注意の機構,シーケンスベースモデル,補足探索,ネットワークベース手法を組み合わせたニューラルネットワークによる統一学習環境において,58種類の最先端コンピュータビジョンモデルの性能について検討する。 本研究は,ロバスト性がトレーニング設定とモデルタイプに依存し,分散型によって性能が異なることを実証する。 私たちの研究は、コンピュータビジョンモデルの堅牢性をよりよく理解し、ベンチマークするのに役立ちます。

The vision transformer (ViT) has advanced to the cutting edge in the visual recognition task. Transformers are more robust than CNN, according to the latest research. ViT's self-attention mechanism, according to the claim, makes it more robust than CNN. Even with this, we discover that these conclusions are based on unfair experimental conditions and just comparing a few models, which did not allow us to depict the entire scenario of robustness performance. In this study, we investigate the performance of 58 state-of-the-art computer vision models in a unified training setup based not only on attention and convolution mechanisms but also on neural networks based on a combination of convolution and attention mechanisms, sequence-based model, complementary search, and network-based method. Our research demonstrates that robustness depends on the training setup and model types, and performance varies based on out-of-distribution type. Our research will aid the community in better understanding and benchmarking the robustness of computer vision models.
翻訳日:2023-10-13 15:19:36 公開日:2023-10-08
# リワードモデリングを伴わない直接選好型政策最適化

Direct Preference-based Policy Optimization without Reward Modeling ( http://arxiv.org/abs/2301.12842v2 )

ライセンス: Link先を確認
Gaon An, Junhyeok Lee, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song(参考訳) 嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチであり、報酬関数の定式化には特に有用である。 既存のPbRL法では、まず与えられた嗜好データに基づいて報酬モデルを学習し、学習された報酬モデルを用いて既製の強化学習アルゴリズムを採用する。 しかし、選好情報のみから、特に人間教師からの選好の場合、正確な報奨モデルを得ることは困難である。 代わりに、報酬モデルを必要としない好みから直接学習するPbRLアルゴリズムを提案する。 これを達成するために、我々は、与えられた嗜好に沿った政策に高いスコアを割り当てる新しい政策スコアリング指標を設計するために、対照的な学習フレームワークを採用する。 我々は,本アルゴリズムを実際の人選好ラベル付きオフラインRLタスクに適用し,既存のPbRL手法と同等あるいは同等であることを示す。 特に,高次元制御タスクでは,オフラインのrl法を超越し,地上報酬情報で学習する。 また,本アルゴリズムはベースラインと比較してデータ効率が向上することを示す。

Preference-based reinforcement learning (PbRL) is an approach that enables RL agents to learn from preference, which is particularly useful when formulating a reward function is challenging. Existing PbRL methods generally involve a two-step procedure: they first learn a reward model based on given preference data and then employ off-the-shelf reinforcement learning algorithms using the learned reward model. However, obtaining an accurate reward model solely from preference information, especially when the preference is from human teachers, can be difficult. Instead, we propose a PbRL algorithm that directly learns from preference without requiring any reward modeling. To achieve this, we adopt a contrastive learning framework to design a novel policy scoring metric that assigns a high score to policies that align with the given preferences. We apply our algorithm to offline RL tasks with actual human preference labels and show that our algorithm outperforms or is on par with the existing PbRL methods. Notably, on high-dimensional control tasks, our algorithm surpasses offline RL methods that learn with ground-truth reward information. Also, our algorithm demonstrates enhanced data efficiency compared to the baselines.
翻訳日:2023-10-13 15:10:22 公開日:2023-10-08
# PIT:置換不変変換による動的スパース深層学習モデルの最適化

PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation Invariant Transformation ( http://arxiv.org/abs/2301.10936v2 )

ライセンス: Link先を確認
Ningxin Zheng, Huiqiang Jiang, Quanlu Zhang, Zhenhua Han, Yuqing Yang, Lingxiao Ma, Fan Yang, Chengruidong Zhang, Lili Qiu, Mao Yang, Lidong Zhou(参考訳) 実行時まで疎結合パターンが不明な動的疎結合は、ディープラーニングに重大な課題をもたらす。 state-of-the-art sparsity-aware deep learningソリューションは、事前処理に伴う大きなオーバーヘッドのため、事前に定義された静的スパーシティパターンに制限されている。 動的スパース計算の効率的な実行は、効率の良い実行のためにgpuフレンドリーなタイル構成と、カバレッジの無駄(テンソルのゼロでない値)を最小限に抑えるスパーシティアウェアタイル形状の不一致に直面することが多い。 本稿では,動的スパーシティのためのディープラーニングコンパイラpitを提案する。 pitは、数学的に証明された特性である置換不変変換(permutation invariant transformation:pit)を利用して、計算結果を変更せずに、複数のスパース配置されたマイクロタイルをgpu効率の高い高密度タイルに変換する新しいタイル機構を提案する。 モデルが与えられた後、PITはまずすべての演算子に対して実行可能なPITルールを見つけ、それに従って効率的なGPUカーネルを生成する。 実行時に、新しいSReadとSWriteプリミティブを使うことで、PITルールを極めて高速に実行し、オンライン形式で動的スパーシリティをサポートすることができる。 多様なモデルに対する広範囲な評価は、PITが最先端のコンパイラよりも5.9倍(平均2.43倍)の動的空間計算を加速できることを示している。

Dynamic sparsity, where the sparsity patterns are unknown until runtime, poses a significant challenge to deep learning. The state-of-the-art sparsity-aware deep learning solutions are restricted to pre-defined, static sparsity patterns due to significant overheads associated with preprocessing. Efficient execution of dynamic sparse computation often faces the misalignment between the GPU-friendly tile configuration for efficient execution and the sparsity-aware tile shape that minimizes coverage wastes (non-zero values in tensor). In this paper, we propose PIT, a deep-learning compiler for dynamic sparsity. PIT proposes a novel tiling mechanism that leverages Permutation Invariant Transformation (PIT), a mathematically proven property, to transform multiple sparsely located micro-tiles into a GPU-efficient dense tile without changing the computation results, thus achieving both high GPU utilization and low coverage waste. Given a model, PIT first finds feasible PIT rules for all its operators and generates efficient GPU kernels accordingly. At runtime, with the novel SRead and SWrite primitives, PIT rules can be executed extremely fast to support dynamic sparsity in an online manner. Extensive evaluation on diverse models shows that PIT can accelerate dynamic sparsity computation by up to 5.9x (average 2.43x) over state-of-the-art compilers.
翻訳日:2023-10-13 15:07:33 公開日:2023-10-08
# 都市環境における自律運転のための中レベル入力生成による階層型逆数模倣学習

Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments ( http://arxiv.org/abs/2302.04823v3 )

ライセンス: Link先を確認
Gustavo Claudio Karl Couto and Eric Aislan Antonelo(参考訳) 現実的な都市ナビゲーションシナリオに対する堅牢な制御ポリシの導出は、簡単な作業ではない。 エンドツーエンドのアプローチでは、これらのポリシーは車両のカメラからの高次元画像をステアリングやスロットルのような低レベルのアクションにマッピングする必要がある。 純粋強化学習 (rl) のアプローチは報酬のみに基づいているが、生成的敵意模倣学習 (generative adversarial imitation learning, gail) エージェントは、環境と相互作用しながら専門家のデモンストレーションから学習する。 本研究では, エージェント環境の中間レベル入力表現を同時に学習しながら, 低レベル動作に直接知覚知覚をマッピングする, エンドツーエンドアプローチで車両の自律ナビゲーションを解決するためのhGAILアーキテクチャを提案する。 The proposed hGAIL consists of an hierarchical Adversarial Imitation Learning architecture composed of two main modules: the GAN (Generative Adversarial Nets) which generates the Bird's-Eye View (BEV) representation mainly from the images of three frontal cameras of the vehicle, and the GAIL which learns to control the vehicle based mainly on the BEV predictions from the GAN as input.Our experiments have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training, was able to autonomously navigate successfully in all intersections of the city.

Deriving robust control policies for realistic urban navigation scenarios is not a trivial task. In an end-to-end approach, these policies must map high-dimensional images from the vehicle's cameras to low-level actions such as steering and throttle. While pure Reinforcement Learning (RL) approaches are based exclusively on rewards,Generative Adversarial Imitation Learning (GAIL) agents learn from expert demonstrations while interacting with the environment, which favors GAIL on tasks for which a reward signal is difficult to derive. In this work, the hGAIL architecture was proposed to solve the autonomous navigation of a vehicle in an end-to-end approach, mapping sensory perceptions directly to low-level actions, while simultaneously learning mid-level input representations of the agent's environment. The proposed hGAIL consists of an hierarchical Adversarial Imitation Learning architecture composed of two main modules: the GAN (Generative Adversarial Nets) which generates the Bird's-Eye View (BEV) representation mainly from the images of three frontal cameras of the vehicle, and the GAIL which learns to control the vehicle based mainly on the BEV predictions from the GAN as input.Our experiments have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training, was able to autonomously navigate successfully in all intersections of the city.
翻訳日:2023-10-13 14:58:38 公開日:2023-10-08
# PK-ICR:接地対話のためのペルソナ知識対話型文脈検索

PK-ICR: Persona-Knowledge Interactive Context Retrieval for Grounded Dialogue ( http://arxiv.org/abs/2302.06674v2 )

ライセンス: Link先を確認
Minsik Oh, Joosung Lee, Jiwei Li, Guoyin Wang(参考訳) 対話システムにおける関連するペルソナや知識の同定は,対話応答生成において重要である。 しかし,近年の論文では,より実践的な多言語対話タスクと分離して研究が進められている。 我々は、複雑な多言語対話設定において、ペルソナと知識の2つのコンテキスト識別を、与えられた対話のためのペルソナと知識を協調的に識別するタスクとして定義する。 対話のすべての文脈を同時に利用する新しい接地検索手法を開発した。 提案手法では,ニューラルネットワークによるQA検索モデルを用いて計算能力の低下を図る。 さらに,データ拡張に関連して,意味的に異なるサンプル(ハードネガティブ)のランク付け性能を計測する新しいヌル正ランクテストを導入する。

Identifying relevant persona or knowledge for conversational systems is critical to grounded dialogue response generation. However, each grounding has been mostly researched in isolation with more practical multi-context dialogue tasks introduced in recent works. We define Persona and Knowledge Dual Context Identification as the task to identify persona and knowledge jointly for a given dialogue, which could be of elevated importance in complex multi-context dialogue settings. We develop a novel grounding retrieval method that utilizes all contexts of dialogue simultaneously. Our method requires less computational power via utilizing neural QA retrieval models. We further introduce our novel null-positive rank test which measures ranking performance on semantically dissimilar samples (i.e. hard negatives) in relation to data augmentation.
翻訳日:2023-10-13 14:47:05 公開日:2023-10-08
# optba: ミツバチアルゴリズムによるハイパーパラメータの最適化による医用テキスト分類の改善

OptBA: Optimizing Hyperparameters with the Bees Algorithm for Improved Medical Text Classification ( http://arxiv.org/abs/2303.08021v2 )

ライセンス: Link先を確認
Mai A. Shaaban, Mariam Kashkash, Maryam Alghfeli, Adham Ibrahim(参考訳) 人工知能エンジニアが特にディープラーニングの分野で直面する課題の1つは、最適なモデルハイパーパラメータを取得することである。 最適なハイパーパラメータの探索は通常、医療のような現実世界の問題に対する解決策の進行を妨げる。 このハードルを克服するために、最近期待されているswarm intelligenceアルゴリズムであるbeesアルゴリズムを活用し、ディープラーニングモデルのハイパーパラメータを自動的に微調整する「optba」と呼ばれる新しいメカニズムを導入する。 本稿では,初期ハイパーパラメータが特定の基準で反復的に調整される医療用テキストを用いて,病気の分類精度を最大化することを目的とする。 実験の結果,約1.4%の精度向上が認められた。 この結果は、ハイパーパラメータ最適化の重要課題に対処する上で提案するメカニズムの有効性と、医療や他の社会的課題に対するソリューションの進歩に対する潜在的影響を強調している。

One of the challenges that artificial intelligence engineers face, specifically in the field of deep learning is obtaining the optimal model hyperparameters. The search for optimal hyperparameters usually hinders the progress of solutions to real-world problems such as healthcare. To overcome this hurdle, the proposed work introduces a novel mechanism called ``OptBA" to automatically fine-tune the hyperparameters of deep learning models by leveraging the Bees Algorithm, which is a recent promising swarm intelligence algorithm. In this paper, the optimization problem of OptBA is to maximize the accuracy in classifying ailments using medical text, where initial hyperparameters are iteratively adjusted by specific criteria. Experimental results demonstrate a noteworthy enhancement in accuracy with approximately 1.4%. This outcome highlights the effectiveness of the proposed mechanism in addressing the critical issue of hyperparameter optimization and its potential impact on advancing solutions for healthcare and other societal challenges.
翻訳日:2023-10-13 14:29:35 公開日:2023-10-08
# 異種分布シフトによる統計的学習

Statistical Learning under Heterogenous Distribution Shift ( http://arxiv.org/abs/2302.13934v2 )

ライセンス: Link先を確認
Max Simchowitz, Anurag Ajay, Pulkit Agrawal, Akshay Krishnamurthy(参考訳) 本論では、一対の確率変数 $(\mathbf{x},\mathbf{y})$ からターゲット $\mathbf{z}$ の予測について検討する。そこで、基底トラス予測子は加法的 $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$ である。 実験的リスク最小化(ERM)を,与えられたトレーニング分布に適合する関数$f+g$,$f \in F$,$g \in G$に対して検討するが,共変量シフトを示すテスト分布で評価する。 F$ が $G$ よりも "単純" であるとき(例えば、計量エントロピーの観点から測れば)、我々の予測子は $\textbf{heterogenous covariate shifts}$ より弾力性があり、$\mathbf{x}$ のシフトは $\mathbf{y}$ のそれよりもはるかに大きい。 我々の分析は、ERMが直交機械学習と同じような振る舞いをすることを示す。$: ERMが予測子の$f$成分を回復する速度は、加法構造によって導入された部分的不確定性のために調整されたクラス$G$の複雑さにしか依存しない。 これらの結果は,ダドリー積分に対する新しいH\"古いスタイルの不等式に依存しており,多くの領域にまたがる「単純"な特徴の変化に対するレジリエンスの向上を示す実験により,我々の理論的知見を裏付けるものである。

This paper studies the prediction of a target $\mathbf{z}$ from a pair of random variables $(\mathbf{x},\mathbf{y})$, where the ground-truth predictor is additive $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$. We study the performance of empirical risk minimization (ERM) over functions $f+g$, $f \in F$ and $g \in G$, fit on a given training distribution, but evaluated on a test distribution which exhibits covariate shift. We show that, when the class $F$ is "simpler" than $G$ (measured, e.g., in terms of its metric entropy), our predictor is more resilient to $\textbf{heterogenous covariate shifts}$ in which the shift in $\mathbf{x}$ is much greater than that in $\mathbf{y}$. Our analysis proceeds by demonstrating that ERM behaves $\textbf{qualitatively similarly to orthogonal machine learning}$: the rate at which ERM recovers the $f$-component of the predictor has only a lower-order dependence on the complexity of the class $G$, adjusted for partial non-indentifiability introduced by the additive structure. These results rely on a novel H\"older style inequality for the Dudley integral which may be of independent interest. Moreover, we corroborate our theoretical findings with experiments demonstrating improved resilience to shifts in "simpler" features across numerous domains.
翻訳日:2023-10-13 14:26:24 公開日:2023-10-08
# 世代拡大のためのマルチモーダル情報の検索:サーベイ

Retrieving Multimodal Information for Augmented Generation: A Survey ( http://arxiv.org/abs/2303.10868v2 )

ライセンス: Link先を確認
Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do, Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty(参考訳) LLM(Large Language Models)が普及するにつれて、LLMの生成能力を高めるためにマルチモーダルを使用するという重要なトレンドが出現し、LLMが世界とよりうまく対話できるようになる。 しかし、どの段階と異なるモダリティを組み込むかという統一的な認識が欠けている。 本研究では,画像,コード,テーブル,グラフ,音声など多様な形式を持つマルチモーダル知識を検索し,生成モデルを支援する手法について検討する。 このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な懸念に対する有望な解決策を提供する。 本調査では,本手法の応用についてより深く理解し,LLMの急速に発展する分野に既存技術を適用することを奨励することが期待されている。

As Large Language Models (LLMs) become popular, there emerged an important trend of using multimodality to augment the LLMs' generation ability, which enables LLMs to better interact with the world. However, there lacks a unified perception of at which stage and how to incorporate different modalities. In this survey, we review methods that assist and augment generative models by retrieving multimodal knowledge, whose formats range from images, codes, tables, graphs, to audio. Such methods offer a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. By providing an in-depth review, this survey is expected to provide scholars with a deeper understanding of the methods' applications and encourage them to adapt existing techniques to the fast-growing field of LLMs.
翻訳日:2023-10-13 14:18:02 公開日:2023-10-08
# cito:torchを使用したニューラルネットワークトレーニング用rパッケージ

cito: An R package for training neural networks using torch ( http://arxiv.org/abs/2303.09599v2 )

ライセンス: Link先を確認
Christian Amesoeder, Florian Hartig, Maximilian Pichler(参考訳) ディープニューラルネットワーク(DNN)は回帰および分類タスクの中心的な手法となっている。 いくつかのパッケージはDNNを直接Rに適合させることができるが、機能的には限られている。 現在のディープラーニングアプリケーションは、DNNの構築とトレーニングには、特にPyTorchやTensorFlowといった主要なディープラーニングフレームワークの1つに依存している。 しかし、これらのフレームワークを使用するには、R環境における典型的な回帰や機械学習機能よりも、かなり多くのトレーニングと時間が必要です。 深層学習のためのユーザフレンドリなRパッケージである 'cito' では、多くのRパッケージで使われている親しみやすい公式構文でディープニューラルネットワークを指定できる。 モデルに合うように、'cito'は'torch'を使用し、数値的に最適化されたトーチライブラリを活用し、CPUやGPUのトレーニングモデルを切り替える機能を含む。 さらに、"cito"にはモデルプロットと分析のための多くのユーザフレンドリな機能が含まれており、予測のブートストラップに基づいたオプションの信頼区間(CI)や、効果のサイズやCIやp値による変数の重要度に関する説明可能なAI(xAI)メトリクスが含まれている。 訓練されたDNNを探索するために組み込まれたxAI機能を含む「シトー」を用いた典型的な分析パイプラインを紹介するため、アフリカゾウの種分布モデルを構築した。 私たちは、ディープニューラルネットワークを指定、デプロイ、解釈するためのユーザフレンドリなRフレームワークを提供することで、この興味深いモデルクラスがエコロジーデータ分析によりアクセスしやすくなることを期待しています。 安定したバージョンのcitoは、総合Rアーカイブネットワーク(CRAN)からインストールすることができる。

Deep Neural Networks (DNN) have become a central method for regression and classification tasks. Some packages exist that allow to fit DNN directly in R, but those are rather limited in their functionality. Most current deep learning applications rely on one of the major deep learning frameworks, in particular PyTorch or TensorFlow, to build and train DNNs. Using these frameworks, however, requires substantially more training and time than typical regression or machine learning functions in the R environment. Here, we present 'cito', a user-friendly R package for deep learning that allows to specify deep neural networks in the familiar formula syntax used in many R packages. To fit the models, 'cito' uses 'torch', taking advantage of the numerically optimized torch library, including the ability to switch between training models on CPUs or GPUs. Moreover, 'cito' includes many user-friendly functions for model plotting and analysis, including optional confidence intervals (CIs) based on bootstraps on predictions as well as explainable AI (xAI) metrics for effect sizes and variable importance with CIs and p-values. To showcase a typical analysis pipeline using 'cito', including its built-in xAI features to explore the trained DNN, we build a species distribution model of the African elephant. We hope that by providing a user-friendly R framework to specify, deploy and interpret deep neural networks, 'cito' will make this interesting model class more accessible to ecological data analysis. A stable version of 'cito' can be installed from the comprehensive R archive network (CRAN).
翻訳日:2023-10-13 14:17:25 公開日:2023-10-08
# SSL-Cleanse: 自己監視学習におけるトロイの木馬の検出と緩和

SSL-Cleanse: Trojan Detection and Mitigation in Self-Supervised Learning ( http://arxiv.org/abs/2303.09079v2 )

ライセンス: Link先を確認
Mengxin Zheng, Jiaqi Xue, Zihao Wang, Xun Chen, Qian Lou, Lei Jiang and Xiaofeng Wang(参考訳) 自己教師付き学習(SSL)は、データ表現を符号化する一般的な手法である。 予めトレーニングされたsslイメージエンコーダを使用して、その後下流の分類器をトレーニングすることで、ラベル付きデータの少ないさまざまなタスクで印象的なパフォーマンスを実現することができる。 SSLの採用の増加により、SSLエンコーダと関連するTrojan攻撃に関するセキュリティ調査が増加した。 SSLエンコーダに埋め込まれたTrojan攻撃は隠蔽的に動作し、複数のユーザやデバイスに分散する。 トロイの木馬エンコーダにおけるバックドアの挙動の存在は、下流の分類器によって必然的に継承され、脅威の検出と緩和がさらに困難になる。 教師あり学習における現在のトロイの木馬検出手法は、SSL下流の分類器を保護できる可能性があるが、広く普及する前にSSLエンコーダ内のトリガーを特定し、対処することは難しい課題である。 この課題は、ダウンストリームタスクが不明な場合やデータセットラベルが利用できない場合、SSLエンコーダのトロイの木馬検出時に、元の未学習のトレーニングデータセットにアクセスできない場合、発生します。 SSLエンコーダのバックドア脅威を特定し軽減するためのソリューションとしてSSL-Cleanseを導入する。 1200エンコーダを用いてさまざまなデータセット上でSSL-Cleanseを評価し,ImageNet-100の平均検出成功率は82.2%に達した。 バックドアを緩和した後、バックドアエンコーダは平均して0.3%のアタック成功率を達成し、ssl-cleanseの有効性を証明した。

Self-supervised learning (SSL) is a prevalent approach for encoding data representations. Using a pre-trained SSL image encoder and subsequently training a downstream classifier, impressive performance can be achieved on various tasks with very little labeled data. The growing adoption of SSL has led to an increase in security research on SSL encoders and associated Trojan attacks. Trojan attacks embedded in SSL encoders can operate covertly, spreading across multiple users and devices. The presence of backdoor behavior in Trojaned encoders can inadvertently be inherited by downstream classifiers, making it even more difficult to detect and mitigate the threat. Although current Trojan detection methods in supervised learning can potentially safeguard SSL downstream classifiers, identifying and addressing triggers in the SSL encoder before its widespread dissemination is a challenging task. This challenge arises because downstream tasks might be unknown, dataset labels may be unavailable, and the original unlbeled training dataset might be inaccessible during Trojan detection in SSL encoders. We introduce SSL-Cleanse as a solution to identify and mitigate backdoor threats in SSL encoders. We evaluated SSL-Cleanse on various datasets using 1200 encoders, achieving an average detection success rate of 82.2% on ImageNet-100. After mitigating backdoors, on average, backdoored encoders achieve 0.3% attack success rate without great accuracy loss, proving the effectiveness of SSL-Cleanse.
翻訳日:2023-10-13 14:16:30 公開日:2023-10-08
# DeltaScore: 摂動によるストーリ評価

DeltaScore: Story Evaluation with Perturbations ( http://arxiv.org/abs/2303.08991v4 )

ライセンス: Link先を確認
Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau(参考訳) 自然言語生成タスクに対して多くの評価指標が開発されているが、ストーリー評価における有効性は、浮力や面白さといった複雑なストーリーテリングの側面を評価するのに特に適していないため、制限されている。 本稿では,ニュアンスストーリーの側面評価に摂動技術を用いた新しい手法であるDELTASCOREを紹介する。 私たちの中心的命題は、あるストーリーが特定の側面(例えばフルエンシー)において優れている範囲は、その特定の摂動に対する感受性の大きさ(例えば、タイポスの導入)と相関していると仮定している。 そこで本稿では,事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。 deltascore と2つのドメインのストーリーテリングデータセットの既存のメトリクスを比較して,5つのきめ細かいストーリの側面であるfluency, coherence, relatedness, logicality, interestingness を比較した。 DELTASCOREは顕著な性能を示し、特定の摂動が複数の側面を捉えるのに非常に効果的であることを示した。

Numerous evaluation metrics have been developed for natural language generation tasks, but their effectiveness in evaluating stories is limited as they are not specifically tailored to assess intricate aspects of storytelling, such as fluency and interestingness. In this paper, we introduce DELTASCORE, a novel methodology that employs perturbation techniques for the evaluation of nuanced story aspects. Our central proposition posits that the extent to which a story excels in a specific aspect (e.g., fluency) correlates with the magnitude of its susceptibility to particular perturbations (e.g., the introduction of typos). Given this, we measure the quality of an aspect by calculating the likelihood difference between pre- and post-perturbation states using pre-trained language models. We compare DELTASCORE with existing metrics on storytelling datasets from two domains in five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. DELTASCORE demonstrates remarkable performance, revealing a surprising finding that a specific perturbation proves highly effective in capturing multiple aspects.
翻訳日:2023-10-13 14:16:02 公開日:2023-10-08
# 論理推論における言語モデルを支援する明示的計画法

Explicit Planning Helps Language Models in Logical Reasoning ( http://arxiv.org/abs/2303.15714v3 )

ライセンス: Link先を確認
Hongyu Zhao, Kangrui Wang, Mo Yu, Hongyuan Mei(参考訳) 言語モデルは、幅広い自然言語処理タスクで驚くほどよく機能することが示されている。 本稿では,言語モデルを用いて多段階論理推論を行い,推論手順に明示的な計画を取り込む新しいシステムであるleapを提案する。 明示的な計画により、システムは将来の効果を見据えて、各ステップでより深い推論決定を行うことができる。 さらに,計画プロセスがスプリアスな特徴によって引き起こされるのを防止できるトレーニング戦略を提案する。 当社の全システムは、複数の標準データセットで競合する他のメソッドを大幅に上回っています。 小型T5モデルをコア選択および導出成分として使用する場合,約1Bパラメータ(GPT-3の175倍小さい)を持つにもかかわらず,GPT-3と比較して競合的に動作する。 GPT-3.5を使用する場合、挑戦的なPrOntoQAデータセットにおいて、チェーン・オブ・シークレットを著しく上回る。 我々は,システムの性能において明示的な計画が重要な役割を担っていることを示すために,広範な実証研究を行った。

Language models have been shown to perform remarkably well on a wide range of natural language processing tasks. In this paper, we propose LEAP, a novel system that uses language models to perform multi-step logical reasoning and incorporates explicit planning into the inference procedure. Explicit planning enables the system to make more informed reasoning decisions at each step by looking ahead into their future effects. Moreover, we propose a training strategy that safeguards the planning process from being led astray by spurious features. Our full system significantly outperforms other competing methods on multiple standard datasets. When using small T5 models as its core selection and deduction components, our system performs competitively compared to GPT-3 despite having only about 1B parameters (i.e., 175 times smaller than GPT-3). When using GPT-3.5, it significantly outperforms chain-of-thought prompting on the challenging PrOntoQA dataset. We have conducted extensive empirical studies to demonstrate that explicit planning plays a crucial role in the system's performance.
翻訳日:2023-10-13 14:07:50 公開日:2023-10-08
# 大規模言語モデルにおけるヒューマンライクな翻訳評価を可能にする誤り解析プロンプト:ChatGPTを事例として

Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT ( http://arxiv.org/abs/2303.13809v2 )

ライセンス: Link先を確認
Qingyu Lu, Baopu Qiu, Liang Ding, Kanjian Zhang, Tom Kocmi, Dacheng Tao(参考訳) 生成型大規模言語モデル(LLM)、例えばChatGPTは、機械翻訳、テキスト要約など、いくつかのNLPタスクにおいて顕著な習熟性を示している。 最近の研究 (Kocmi and Federmann, 2023) では, 機械翻訳(MT)の品質評価にChatGPTを用いることで, システムレベルでの最先端性能が達成されるが, セグメントレベルでは性能が低下することが示されている。 mt品質評価におけるllmsの性能をさらに向上させるため,複数のプロンプト法を調査し,連鎖思考(wei et al., 2022)と誤り分析(lu et al., 2022)を組み合わせることにより,誤り分析促進法(eaprompt)と呼ばれる新しいプロンプト法を提案する。 WMT22の結果から,ChatGPTなどのLCMにエラー解析を施すことで,システムとセグメントレベルでの人為的なMT評価が実現できることがわかった。 さらに, MT評価器としてのChatGPTのいくつかの制限, 例えば入力順序の変更は, 単一のクエリで複数の翻訳を提供する際の判断に大きく影響する可能性がある。 本研究は, 誤り解析パラダイムに基づく翻訳評価指標の信頼性向上のため, LLMを評価対象として活用する予備的な経験を提供する。

Generative large language models (LLMs), e.g., ChatGPT, have demonstrated remarkable proficiency across several NLP tasks, such as machine translation, text summarization. Recent research (Kocmi and Federmann, 2023) has shown that utilizing ChatGPT for assessing the quality of machine translation (MT) achieves state-of-the-art performance at the system level but performs poorly at the segment level. To further improve the performance of LLMs on MT quality assessment, we conduct an investigation into several prompting methods, and propose a new prompting method called Error Analysis Prompting (EAPrompt) by combining Chain-of-Thoughts (Wei et al., 2022) and Error Analysis (Lu et al., 2022). Our results on WMT22 indicate that prompting LLMs like ChatGPT with error analysis can generate human-like MT evaluations at both the system and segment level. Additionally, we first discover some limitations of ChatGPT as an MT evaluator, such as changing the order of input may significantly influence the judgment when providing multiple translations in a single query. This work provides a preliminary experience of prompting LLMs as an evaluator to improve the reliability of translation evaluation metrics under the error analysis paradigm.
翻訳日:2023-10-13 14:06:48 公開日:2023-10-08
# 6次元空間推定の終端学習における線形共分散損失

Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation ( http://arxiv.org/abs/2303.11516v2 )

ライセンス: Link先を確認
Fulin Liu, Yinlin Hu, Mathieu Salzmann(参考訳) 現代の画像に基づく6次元物体ポーズ推定法は, pnpソルバを用いて2d-3d対応を予測できる。 共通PnPソルバの微分不可能な性質のため、これらの手法は個々の対応を通して制御される。 これを解決するために、いくつかの手法が微分可能なPnP戦略を設計し、PnPステップ後に得られたポーズを監督する。 ここでは、これはPnP問題の平均的な性質と矛盾し、ネットワークが個々の対応の精度を低下させるであろう勾配をもたらすと論じる。 これを解決するために、PnP問題を解く前に、基底真理ポーズを利用する損失関数を導出する。 具体的には, pnpソルバを接地姿勢の周りに線形化し, 結果のポーズ分布の共分散を計算する。 次に、PnP平均化問題に悩まされていない最終的なポーズ推定を考慮し、対角的共分散要素に基づいて損失を定義する。 実験の結果,高密度・スパース対応方式のポーズ推定精度は一貫して向上し,Linemod-Occluded と YCB-Video の双方で最先端の結果が得られた。

Most modern image-based 6D object pose estimation methods learn to predict 2D-3D correspondences, from which the pose can be obtained using a PnP solver. Because of the non-differentiable nature of common PnP solvers, these methods are supervised via the individual correspondences. To address this, several methods have designed differentiable PnP strategies, thus imposing supervision on the pose obtained after the PnP step. Here, we argue that this conflicts with the averaging nature of the PnP problem, leading to gradients that may encourage the network to degrade the accuracy of individual correspondences. To address this, we derive a loss function that exploits the ground truth pose before solving the PnP problem. Specifically, we linearize the PnP solver around the ground-truth pose and compute the covariance of the resulting pose distribution. We then define our loss based on the diagonal covariance elements, which entails considering the final pose estimate yet not suffering from the PnP averaging issue. Our experiments show that our loss consistently improves the pose estimation accuracy for both dense and sparse correspondence based methods, achieving state-of-the-art results on both Linemod-Occluded and YCB-Video.
翻訳日:2023-10-13 14:05:42 公開日:2023-10-08
# ワークアバターの対面:ミーティングにおけるリアリズムのための知識労働者の選好

The Work Avatar Face-Off: Knowledge Worker Preferences for Realism in Meetings ( http://arxiv.org/abs/2304.01405v2 )

ライセンス: Link先を確認
Vrushank Phadnis, Kristin Moore and Mar Gonzalez Franco(参考訳) アバターは社会環境で人気が高まっているが、職場での使用は相変わらず不評である。 我々は,アバターに対する知識労働者の感情,特にリアリズムが職場会議の受容性に及ぼす影響を評価するため,大規模調査を行った。 複数の国の知識労働者2509名を対象に,マネージャ,既知の同僚,未知の同僚が使用するアバタースタイルを5種類評価した。 あらゆるシナリオにおいて、参加者はより高いリアリズムを好んだが、完全に現実的なアバターは時々不気味であると認識された。 アバターは、未知の同僚やマネージャーと対話する際に、既知の同僚と比べて、より現実的な評価が下がった。 アバターの受容性は国によって異なり、米国と韓国の参加者はより好意的にアバターを評価した。 我々は,作業アバターの選択に影響を与える要因を包括的に理解するために,オープンエンド応答のテーマ分析で定量的知見を補足した。 その結果,現実主義は受容可能性と有意な正の相関を示した。 非現実的なアバターは楽しく遊び心があると見なされたが、時折使うのに適している。

While avatars have grown in popularity in social settings, their use in the workplace is still debatable. We conducted a large-scale survey to evaluate knowledge worker sentiment towards avatars, particularly the effects of realism on their acceptability for work meetings. Our survey of 2509 knowledge workers from multiple countries rated five avatar styles for use by managers, known colleagues and unknown colleagues. In all scenarios, participants favored higher realism, but fully realistic avatars were sometimes perceived as uncanny. Less realistic avatars were rated worse when interacting with an unknown colleague or manager, as compared to a known colleague. Avatar acceptability varied by country, with participants from the United States and South Korea rating avatars more favorably. We supplemented our quantitative findings with a thematic analysis of open-ended responses to provide a comprehensive understanding of factors influencing work avatar choices. In conclusion, our results show that realism had a significant positive correlation with acceptability. Non-realistic avatars were seen as fun and playful, but only suitable for occasional use.
翻訳日:2023-10-13 13:56:03 公開日:2023-10-08
# YOLOの総合的なレビュー: YOLOv1とBeyond

A Comprehensive Review of YOLO: From YOLOv1 and Beyond ( http://arxiv.org/abs/2304.00501v5 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では、YOLOの進化を総合的に分析し、元のYOLOからYOLOv8, YOLO-NAS, YOLOをトランスフォーマーで比較した。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO up to YOLOv8, YOLO-NAS, and YOLO with Transformers. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2023-10-13 13:54:45 公開日:2023-10-08
# プライベートラーニングにおけるトレーニングデータ再構成のクエリ複雑さについて

On the Query Complexity of Training Data Reconstruction in Private Learning ( http://arxiv.org/abs/2303.16372v5 )

ライセンス: Link先を確認
Prateeti Mukherjee and Satya Lokam(参考訳) 学習データを再構築するために,ホワイトボックスの敵がプライベート学習者に対して行わなければならないクエリ数を分析する。 任意のコンパクトなメトリック空間から抽出されたトレーニングデータを持つDP学習者に対して、学習者のプライバシーパラメータの関数として、敵のクエリ複雑性に関する \emph{first known lower bounds} を提供する。 \emph{Our results are minimax optimal for every $\epsilon \geq 0, \delta \in [0, 1]$, cover both $\epsilon$-DP and $(0, \delta)$ DP as corollaries}。 さらに、$(\alpha, \epsilon)$ R\'enyi DP 学習者に対して、$\alpha > 1, \epsilon \geq 0$に対して有効なクエリ複雑性の低い境界を得る。 最後に,データの基本となる距離構造を考慮に入れたDPの一般化であるMetric DPの枠組みを用いて,局所コンパクトな距離空間に対するデータ再構成攻撃を分析する。 本研究では,非有界高次元空間におけるデータ再構成に関する最初の既知の解析を行い,ほぼ密なモジュラー対数因子であるクエリ複雑性下限を求める。

We analyze the number of queries that a whitebox adversary needs to make to a private learner in order to reconstruct its training data. For $(\epsilon, \delta)$ DP learners with training data drawn from any arbitrary compact metric space, we provide the \emph{first known lower bounds on the adversary's query complexity} as a function of the learner's privacy parameters. \emph{Our results are minimax optimal for every $\epsilon \geq 0, \delta \in [0, 1]$, covering both $\epsilon$-DP and $(0, \delta)$ DP as corollaries}. Beyond this, we obtain query complexity lower bounds for $(\alpha, \epsilon)$ R\'enyi DP learners that are valid for any $\alpha > 1, \epsilon \geq 0$. Finally, we analyze data reconstruction attacks on locally compact metric spaces via the framework of Metric DP, a generalization of DP that accounts for the underlying metric structure of the data. In this setting, we provide the first known analysis of data reconstruction in unbounded, high dimensional spaces and obtain query complexity lower bounds that are nearly tight modulo logarithmic factors.
翻訳日:2023-10-13 13:53:53 公開日:2023-10-08
# GEMINI:抽象テキスト要約のための文レベル記述スタイルの制御

GEMINI: Controlling the Sentence-level Writing Style for Abstractive Text Summarization ( http://arxiv.org/abs/2304.03548v2 )

ライセンス: Link先を確認
Guangsheng Bao, Zebin Ou, and Yue Zhang(参考訳) 人間の専門家は、文書から文章を抽出して書き直したり、文書から様々な情報を融合して抽象化するなど、異なる手法で要約を書く。 これらの技法は柔軟であり、単一の手法で模倣することは困難である。 そこで本稿では,文の書き換えと抽象化を模倣するリライトとジェネレータを統合した適応モデルであるgeminiを提案する。 GEMINIは、特定の文書文を書き直したり、スクラッチから要約文を生成することを適応的に選択する。 実験により、我々の適応アプローチは、3つのベンチマークデータセットの純粋抽象および書き換えベースラインよりも優れており、wikihowで最高の結果を得た。 興味深いことに、経験的な結果から、要約文の人間の要約スタイルは、文脈から常に予測可能であることが示される。 コードとモデルは \url{https://github.com/baoguangsheng/gemini} でリリースします。

Human experts write summaries using different techniques, including extracting a sentence from the document and rewriting it, or fusing various information from the document to abstract it. These techniques are flexible and thus difficult to be imitated by any single method. To address this issue, we propose an adaptive model, GEMINI, that integrates a rewriter and a generator to mimic the sentence rewriting and abstracting techniques, respectively. GEMINI adaptively chooses to rewrite a specific document sentence or generate a summary sentence from scratch. Experiments demonstrate that our adaptive approach outperforms the pure abstractive and rewriting baselines on three benchmark datasets, achieving the best results on WikiHow. Interestingly, empirical results show that the human summary styles of summary sentences are consistently predictable given their context. We release our code and model at \url{https://github.com/baoguangsheng/gemini}.
翻訳日:2023-10-13 13:46:27 公開日:2023-10-08
# ASM:高画質3次元顔モデリングのための適応スキニングモデル

ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling ( http://arxiv.org/abs/2304.09423v3 )

ライセンス: Link先を確認
Kai Yang, Hong Shang, Tianyang Shi, Xinghan Chen, Jingkai Zhou, Zhongqian Sun and Wei Yang(参考訳) パラメトリック顔モデルと3次元顔再構成の研究分野を幅広く研究している。 しかし、重要な疑問が残る: 特定の再構成設定のために顔モデルをどう調整するか。 マルチビュー・アンキャリブレーション画像による再構成は,より強力なキャパシティを持つ新しいモデルを必要とする。 本研究では,データ依存型3次元形態モデル(3DMM)から人体設計スキンモデルへ注目を移す。 本稿では,よりコンパクトで完全に調整可能なパラメータでスキンモデルを再定義する適応スキンモデル(asm)を提案する。 大規模な実験により, ASMは3DMMよりも大幅に向上し, モデルサイズと新しいトポロジーの実装が容易になった。 フィレンツェMICCクープベンチマークにおける多視点再構成のためのASMによる最先端性能を実現する。 定量的解析により,多視点入力からの豊富な情報を十分に活用するための高容量モデルの重要性が示された。 さらに,本モデルでは,ゲーム内アバター生成などの実世界のアプリケーションに直接利用することができる。 その結果,パラメトリックフェースモデルの新たな研究方向性が開かれ,多視点再構築の今後の研究が促進される。

The research fields of parametric face model and 3D face reconstruction have been extensively studied. However, a critical question remains unanswered: how to tailor the face model for specific reconstruction settings. We argue that reconstruction with multi-view uncalibrated images demands a new model with stronger capacity. Our study shifts attention from data-dependent 3D Morphable Models (3DMM) to an understudied human-designed skinning model. We propose Adaptive Skinning Model (ASM), which redefines the skinning model with more compact and fully tunable parameters. With extensive experiments, we demonstrate that ASM achieves significantly improved capacity than 3DMM, with the additional advantage of model size and easy implementation for new topology. We achieve state-of-the-art performance with ASM for multi-view reconstruction on the Florence MICC Coop benchmark. Our quantitative analysis demonstrates the importance of a high-capacity model for fully exploiting abundant information from multi-view input in reconstruction. Furthermore, our model with physical-semantic parameters can be directly utilized for real-world applications, such as in-game avatar creation. As a result, our work opens up new research direction for parametric face model and facilitates future research on multi-view reconstruction.
翻訳日:2023-10-13 13:37:06 公開日:2023-10-08
# imagenet-hard:画像分類におけるズームのパワーと空間バイアスの研究から残る最も難しい画像

ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of Zoom and Spatial Biases in Image Classification ( http://arxiv.org/abs/2304.05538v4 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Giang Nguyen, Sarra Habchi, Cor-Paul Bezemer, Anh Nguyen(参考訳) 画像分類器は設計によって情報を捨てる機械である。 しかし、これらのモデルが情報を捨てる方法はまだ謎のままだ。 画像分類器が高い精度に達するための1つの方法は、まず画像の最も識別性の高い領域にズームし、そこから特徴を抽出して画像ラベルを予測し、残りの部分を捨てることである。 alexnetからclipまで6つの人気ネットワークを調べた結果、入力画像の適切なフレーミングがimagenetイメージの98.91%の正しい分類につながることがわかった。 さらに、様々なデータセットにおける位置バイアス、特にImageNet-AとObjectNetの2つの一般的なデータセットにおける強力な中心バイアスを明らかにする。 最後に,ズーム処理の可能性に関する知見を活かし,モデルに予測を行う前にズームイン操作を明示的に行なわせることによって,分類精度を向上させるtta(test-time augmentation)手法を提案する。 我々の手法は、最先端(SOTA)TTA法であるMEMOよりも解釈可能で正確で高速である。 我々は、最適なズームが許された場合でも、大きな視覚言語モデルを含むSOTA分類器に挑戦する新しいベンチマークであるImageNet-Hardを紹介する。

Image classifiers are information-discarding machines, by design. Yet, how these models discard information remains mysterious. We hypothesize that one way for image classifiers to reach high accuracy is to first zoom to the most discriminative region in the image and then extract features from there to predict image labels, discarding the rest of the image. Studying six popular networks ranging from AlexNet to CLIP, we find that proper framing of the input image can lead to the correct classification of 98.91% of ImageNet images. Furthermore, we uncover positional biases in various datasets, especially a strong center bias in two popular datasets: ImageNet-A and ObjectNet. Finally, leveraging our insights into the potential of zooming, we propose a test-time augmentation (TTA) technique that improves classification accuracy by forcing models to explicitly perform zoom-in operations before making predictions. Our method is more interpretable, accurate, and faster than MEMO, a state-of-the-art (SOTA) TTA method. We introduce ImageNet-Hard, a new benchmark that challenges SOTA classifiers including large vision-language models even when optimal zooming is allowed.
翻訳日:2023-10-13 13:34:22 公開日:2023-10-08
# 事前学習拡散モデルを用いた希少概念の生成

Generating images of rare concepts using pre-trained diffusion models ( http://arxiv.org/abs/2304.14530v2 )

ライセンス: Link先を確認
Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik(参考訳) テキストと画像の拡散モデルは高品質な画像を合成できるが、様々な制限がある。 ここでは、これらのモデルの一般的な失敗モード、すなわち、手のひらのような一般的でない概念と構造化された概念の生成を強調する。 webクローリングされたデータセットは、強くバランスがとれず、モデルが分散のテールから概念を過小表現する原因となっている。 テキストから画像へのモデルに対する不均衡なトレーニングデータの効果を特徴付け、修正を提供する。 本稿では,SedSelectと呼ぶ画像の参照セットを用いて,ノイズ空間における適切な生成種を慎重に選択することで,稀な概念を正しく生成できることを示す。 SeedSelectは拡散モデルの再トレーニングや微調整を必要としない。 種子の忠実性,品質,多様性を評価して希少な物体を作製し,ハンドイメージのような複雑な形状を生成し,一貫して優れた性能を実現する。 さらにセマンティックデータ拡張におけるSeedSelectの利点を示す。 意味的適切な画像を生成することは、頭部および拡散モデルの訓練データ尾部からのクラスにおいて、数ショット認識ベンチマークのパフォーマンスを向上させることができる

Text-to-image diffusion models can synthesize high-quality images, but they have various limitations. Here we highlight a common failure mode of these models, namely, generating uncommon concepts and structured concepts like hand palms. We show that their limitation is partly due to the long-tail nature of their training data: web-crawled data sets are strongly unbalanced, causing models to under-represent concepts from the tail of the distribution. We characterize the effect of unbalanced training data on text-to-image models and offer a remedy. We show that rare concepts can be correctly generated by carefully selecting suitable generation seeds in the noise space, using a small reference set of images, a technique that we call SeedSelect. SeedSelect does not require retraining or finetuning the diffusion model. We assess the faithfulness, quality and diversity of SeedSelect in creating rare objects and generating complex formations like hand images, and find it consistently achieves superior performance. We further show the advantage of SeedSelect in semantic data augmentation. Generating semantically appropriate images can successfully improve performance in few-shot recognition benchmarks, for classes from the head and from the tail of the training data of diffusion models
翻訳日:2023-10-13 13:27:38 公開日:2023-10-08
# Kernel Methodsは演算子学習の競争力を持つ

Kernel Methods are Competitive for Operator Learning ( http://arxiv.org/abs/2304.13202v2 )

ライセンス: Link先を確認
Pau Batlle, Matthieu Darcy, Bamdad Hosseini, Houman Owhadi(参考訳) 本稿では,バナッハ空間間の演算子を学習するための一般的なカーネルベースのフレームワークと,事前誤差解析と,ディープ演算子ネット (deeponet) [lu et al.] やフーリエニューラルネットワーク (fno) [li et al.] といった一般的なニューラルネットワーク (nn) アプローチとの包括的数値比較について述べる。 対象演算子の入出力空間$\mathcal{g}^\dagger\,:\, \mathcal{u}\to \mathcal{v}$ がカーネルヒルベルト空間(rkhs)の再現であるような設定を考えると、データは部分的観測の形式によって得られる:$\phi(u_i), \varphi(v_i)$ of input/output関数$v_i=\mathcal{g}^\dagger(u_i)$ ($i=1,\ldots,n$) および計測演算子$\phi\,:\, \mathcal{u}\to \mathbb{r}^n$ および$\varphi\,:\, \mathcal{v} \to \mathbb{r}^m}} は線型である。 $\psi\,:\, \mathbb{r}^n \to \mathcal{u}$ と $\chi\,:\, \mathbb{r}^m \to \mathcal{v}$ と書けば、$\phi$ と $\varphi$ に対応する最適な回復写像に対して、$\mathcal{g}^\dagger$ と $\bar{\mathcal{g}}=\chi \circ \bar{f} \circ \phi$ を近似し、$f^\dagger:=\varphi \circ \mathcal{g}^\dagger \circ \psi\,:\,\mathbb{r}^m \to \mathbb{r}^m を近似する。 我々は、バニラカーネル(例えば、線形あるいはmat\'{e}rn)を使用する場合であっても、コスト正確性のトレードオフの観点からは競合であり、ほとんどのベンチマークでnnメソッドのパフォーマンスと一致または打ち勝っていることを示す。 さらに,このフレームワークは,単純性,解釈性,収束保証,事前誤差推定,ベイズ不確かさの定量化といったカーネル手法から継承されるいくつかの利点を提供する。 したがって、オペレーター学習の自然なベンチマークとして機能することができる。

We present a general kernel-based framework for learning operators between Banach spaces along with a priori error analysis and comprehensive numerical comparisons with popular neural net (NN) approaches such as Deep Operator Net (DeepONet) [Lu et al.] and Fourier Neural Operator (FNO) [Li et al.]. We consider the setting where the input/output spaces of target operator $\mathcal{G}^\dagger\,:\, \mathcal{U}\to \mathcal{V}$ are reproducing kernel Hilbert spaces (RKHS), the data comes in the form of partial observations $\phi(u_i), \varphi(v_i)$ of input/output functions $v_i=\mathcal{G}^\dagger(u_i)$ ($i=1,\ldots,N$), and the measurement operators $\phi\,:\, \mathcal{U}\to \mathbb{R}^n$ and $\varphi\,:\, \mathcal{V} \to \mathbb{R}^m$ are linear. Writing $\psi\,:\, \mathbb{R}^n \to \mathcal{U}$ and $\chi\,:\, \mathbb{R}^m \to \mathcal{V}$ for the optimal recovery maps associated with $\phi$ and $\varphi$, we approximate $\mathcal{G}^\dagger$ with $\bar{\mathcal{G}}=\chi \circ \bar{f} \circ \phi$ where $\bar{f}$ is an optimal recovery approximation of $f^\dagger:=\varphi \circ \mathcal{G}^\dagger \circ \psi\,:\,\mathbb{R}^n \to \mathbb{R}^m$. We show that, even when using vanilla kernels (e.g., linear or Mat\'{e}rn), our approach is competitive in terms of cost-accuracy trade-off and either matches or beats the performance of NN methods on a majority of benchmarks. Additionally, our framework offers several advantages inherited from kernel methods: simplicity, interpretability, convergence guarantees, a priori error estimates, and Bayesian uncertainty quantification. As such, it can serve as a natural benchmark for operator learning.
翻訳日:2023-10-13 13:27:19 公開日:2023-10-08
# samrs: segment anythingモデルによるリモートセンシングセグメンテーションデータセットのスケールアップ

SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model ( http://arxiv.org/abs/2305.02034v3 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Bo Du, Minqiang Xu, Lin Liu, Dacheng Tao and Liangpei Zhang(参考訳) Segment Anything Model(SAM)の成功は、データ中心の機械学習の重要性を示している。 しかし、リモートセンシング(rs)画像に注釈を付けることに伴う困難とコストのため、貴重なrsデータは、特にピクセルレベルではラベルが付かないままである。 本研究では,samと既存のrsオブジェクト検出データセットを活用して,大規模rsセグメンテーションデータセットを生成する効率的なパイプラインを開発する。 SAMRSは完全に105,090の画像と1,668,241のインスタンスを持ち、既存の高解像度RSセグメンテーションデータセットを数桁上回っている。 セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出に使用できるオブジェクトカテゴリ、場所、およびインスタンス情報を提供する。 また,様々な側面からSAMRSを包括的に分析する。 さらに、予備実験では、タスクの相違に対処するためにsamlによるセグメント化事前トレーニングを行い、微調整中の限られたトレーニングデータによって生じる制限を緩和することの重要性を強調する。 コードとデータセットはhttps://github.com/ViTAE-Transformer/SAMRS.comから入手できる。

The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Remote Sensing (RS) images, a large amount of valuable RS data remains unlabeled, particularly at the pixel level. In this study, we leverage SAM and existing RS object detection datasets to develop an efficient pipeline for generating a large-scale RS segmentation dataset, dubbed SAMRS. SAMRS totally possesses 105,090 images and 1,668,241 instances, surpassing existing high-resolution RS segmentation datasets in size by several orders of magnitude. It provides object category, location, and instance information that can be used for semantic segmentation, instance segmentation, and object detection, either individually or in combination. We also provide a comprehensive analysis of SAMRS from various aspects. Moreover, preliminary experiments highlight the importance of conducting segmentation pre-training with SAMRS to address task discrepancies and alleviate the limitations posed by limited training data during fine-tuning. The code and dataset will be available at https://github.com/ViTAE-Transformer/SAMRS.
翻訳日:2023-10-13 13:15:30 公開日:2023-10-08
# 利用可能なプライバシーとセキュリティの研究は、どれほど奇妙か? (拡張版)

How WEIRD is Usable Privacy and Security Research? (Extended Version) ( http://arxiv.org/abs/2305.05004v2 )

ライセンス: Link先を確認
Ayako A. Hasegawa, Daisuke Inoue, Mitsuaki Akiyama(参考訳) ヒューマン・コンピュータ・インタラクション(HCI)や心理学などのヒューマンファクター分野において、研究者はWEIRD(Western, Educated, Industrialized, Rich, Democratic)諸国からの参加者が多いことを懸念している。 このWEIRDスキューは、多様な人口と文化的差異の理解を妨げる可能性がある。 利用可能なプライバシーとセキュリティ(ups)分野は、ヒューマンファクター分野の研究から多くの研究方法論を継承している。 ups論文の参加者が異国出身である程度と、欧米の参加者を募集する各ユーザ研究における方法論や研究トピックの特徴を理解するため、文献レビューを行った。 UPS の WEIRD 諸国へのスキューは HCI のスキューよりも大きいことがわかった。 研究手法と採用手法における地理的および言語的障壁は、研究者がローカルでユーザー研究を行う原因となる可能性がある。 さらに、多くの論文は参加者の人口統計を報告しなかったため、報告された研究の複製を妨げる可能性があり、再現性が低かった。 地理的多様性を向上させるため,複製研究の促進,研究・検索手法の地理的・言語的問題への対処,非WEIRD人口を対象とした研究の促進などを提案する。

In human factor fields such as human-computer interaction (HCI) and psychology, researchers have been concerned that participants mostly come from WEIRD (Western, Educated, Industrialized, Rich, and Democratic) countries. This WEIRD skew may hinder understanding of diverse populations and their cultural differences. The usable privacy and security (UPS) field has inherited many research methodologies from research on human factor fields. We conducted a literature review to understand the extent to which participant samples in UPS papers were from WEIRD countries and the characteristics of the methodologies and research topics in each user study recruiting Western or non-Western participants. We found that the skew toward WEIRD countries in UPS is greater than that in HCI. Geographic and linguistic barriers in the study methods and recruitment methods may cause researchers to conduct user studies locally. In addition, many papers did not report participant demographics, which could hinder the replication of the reported studies, leading to low reproducibility. To improve geographic diversity, we provide the suggestions including facilitate replication studies, address geographic and linguistic issues of study/recruitment methods, and facilitate research on the topics for non-WEIRD populations.
翻訳日:2023-10-13 13:05:20 公開日:2023-10-08
# ライブストリームチャットにおける規範違反の分析

Analyzing Norm Violations in Live-Stream Chat ( http://arxiv.org/abs/2305.10731v2 )

ライセンス: Link先を確認
Jihyung Moon, Dong-Ho Lee, Hyundong Cho, Woojeong Jin, Chan Young Park, Minwoo Kim, Jonathan May, Jay Pujara, Sungjoon Park(参考訳) ヘイトスピーチのような有害言語は、ユーザーがオンラインコミュニティに参加し、人気のあるプラットフォームを楽しむことを妨げます。 有害な言語や規範違反を検出する以前のアプローチは、主にredditやtwitterなどのオンラインフォーラムやソーシャルメディアからの会話に関係していた。 これらのアプローチはtwitchやyoutube liveといったライブストリーミングプラットフォームでの会話に適用すると効果が低く、各コメントは限られた時間しか見えず、他のコメントとの関係を確立するスレッド構造が欠如している。 本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。 ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。 我々は、他のフォーラムと異なるライブストリームデータのいくつかの側面を具体化し、既存のモデルがこの環境では不十分であることを示す。 ユーザの調査を行うことで、人間がライブストリームモデレーションで使用する情報コンテキストを特定し、コンテキストを活用したトレーニングモデルを使用して規範違反を識別する。 その結果,適切な文脈情報によってモデレーション性能が35\%向上することがわかった。

Toxic language, such as hate speech, can deter users from participating in online communities and enjoying popular platforms. Previous approaches to detecting toxic language and norm violations have been primarily concerned with conversations from online forums and social media, such as Reddit and Twitter. These approaches are less effective when applied to conversations on live-streaming platforms, such as Twitch and YouTube Live, as each comment is only visible for a limited time and lacks a thread structure that establishes its relationship with other comments. In this work, we share the first NLP study dedicated to detecting norm violations in conversations on live-streaming platforms. We define norm violation categories in live-stream chats and annotate 4,583 moderated comments from Twitch. We articulate several facets of live-stream data that differ from other forums, and demonstrate that existing models perform poorly in this setting. By conducting a user study, we identify the informational context humans use in live-stream moderation, and train models leveraging context to identify norm violations. Our results show that appropriate contextual information can boost moderation performance by 35\%.
翻訳日:2023-10-13 12:56:53 公開日:2023-10-08
# 国勢調査データユーザのための差別化プライバシ作業

Making Differential Privacy Work for Census Data Users ( http://arxiv.org/abs/2305.07208v2 )

ライセンス: Link先を確認
Cory McCartan, Tyler Simko, and Kosuke Imai(参考訳) アメリカ合衆国国勢調査局は、研究者や政策立案者が多用しているアメリカ人に関する詳細な統計データを収集し、公表している。 局は最近、個々の国勢調査回答の機密性を改善するために、差分プライバシーの枠組みを採用した。 このプライバシ保護システムの重要な出力はノイズ計測ファイル(NMF)であり、これは集計された統計にランダムノイズを加えることで生成される。 NMFは、データに導入されたエラーを理解し、公表された国勢調査データに対して有効な統計的推測を行うために重要である。 残念なことに、現在のNMFのリリースフォーマットはアクセスと操作が難しい。 我々は、NMFを使用可能なフォーマットに変換するために使用するプロセスを説明し、NMFの今後のバージョンをどうリリースするかを局に推奨する。 これらの変更は、プライバシー対策の透明性と国勢調査データに基づく科学的研究の再現性を確保するために不可欠である。

The U.S. Census Bureau collects and publishes detailed demographic data about Americans which are heavily used by researchers and policymakers. The Bureau has recently adopted the framework of differential privacy in an effort to improve confidentiality of individual census responses. A key output of this privacy protection system is the Noisy Measurement File (NMF), which is produced by adding random noise to tabulated statistics. The NMF is critical to understanding any errors introduced in the data, and performing valid statistical inference on published census data. Unfortunately, the current release format of the NMF is difficult to access and work with. We describe the process we use to transform the NMF into a usable format, and provide recommendations to the Bureau for how to release future versions of the NMF. These changes are essential for ensuring transparency of privacy measures and reproducibility of scientific research built on census data.
翻訳日:2023-10-13 12:53:55 公開日:2023-10-08
# 生成的逆数フィードバックを持つ微調整言語モデル

Fine-tuning Language Models with Generative Adversarial Feedback ( http://arxiv.org/abs/2305.06176v2 )

ライセンス: Link先を確認
Zhang Ze Yu, Lau Jia Jaw, Wong Qin Jiang, Zhang Hui, Bryan Kian Hsiang Low(参考訳) 人間のフィードバックによる強化学習(rlhf)は、命令チューニングによって出力を所望の人間の値に合わせることによって、大規模言語モデル(llm)の性能を著しく向上させることが実証されている。 しかしながら、RLHFは人間の評価者の専門性と生産性の制限によって制約されている。 この欠点に対する反応は、慎重に選択された専門家のデモンストレーションで監督された微調整(SFT)に戻ることである。 しかし、この方法が有効であることが証明されている一方で、必ずループ内の人的オーバーヘッドが増加する。 そこで本研究では,rlhfおよびsftへの生成的敵意フィードバック(rlgaf)による強化学習を提案する。これは生成的敵意トレーニングスタイルを用いて,llmがトレーニング例に直接露出することなく有用な人間専門家のデモンストレーションを学習することを可能にするもので,サンプル効率を維持しつつ優れた一般化能力を実現する。 予備的な知見は,RTGAFがLLHFとSFTの競合性能とLLMの出力を一致させるのに有効であり,それぞれ固有の制約に悩まされていないことを示唆し,AIアライメントの自動化に関するさらなる研究の道筋を示唆している。

Reinforcement Learning with Human Feedback (RLHF) has been demonstrated to significantly enhance the performance of large language models (LLMs) by aligning their outputs with desired human values through instruction tuning. However, RLHF is constrained by the expertise and productivity limitations of human evaluators. A response to this downside is to fall back to supervised fine-tuning (SFT) with additional carefully selected expert demonstrations. However, while this method has been proven to be effective, it invariably also leads to increased human-in-the-loop overhead. In this study, we propose another alternative approach: Reinforcement Learning with Generative Adversarial Feedback (RLGAF) to RLHF and SFT, which uses a generative adversarial training style to enable the LLMs to learn useful human expert demonstrations without being directly exposed to the training examples, thus enabling good generalization capabilities while preserving sample efficiency. Our preliminary findings indicate that RLGAF can help align LLMs outputs with competitive performance against RLHF and SFT, while not suffering from their respective inherent restrictions, suggesting promising avenues for further research on automating AI alignment.
翻訳日:2023-10-13 12:53:07 公開日:2023-10-08
# robustfair:fairness confusion directedgradient searchによる敵対的評価

RobustFair: Adversarial Evaluation through Fairness Confusion Directed Gradient Search ( http://arxiv.org/abs/2305.10906v2 )

ライセンス: Link先を確認
Xuran Li, Peng Wu, Kaixiang Dong, Zhen Zhang, Yanting Chen(参考訳) ディープニューラルネットワーク(DNN)は、予測精度を損なう偽の摂動や、同様の入力に対するバイアス付き予測を引き起こすバイアス付き摂動など、様々な敵の摂動に対する脆弱性のために、しばしば課題に直面している。 本稿では,これら偽りあるいは偏りの摂動を受ける場合のDNNの正確な公平性を評価するための新しいアプローチであるRobustFairを紹介する。 RobustFair は、摂動の重要な入力特徴を特定するために、正確な公正性によって誘導される公正混乱行列の概念を用いる。 この行列は、予測を真の公正、真のバイアス、偽の公正、偽のバイアスと分類し、それによって導かれる摂動は、インスタンスとその類似のものとの2つの影響を生じさせ、予測の正確さ(乱れ)を弱めるか、偏った予測(個別の公正)を引き起こす。 ロバストフェアは、全微分によって近似された損失関数値に基づいて、これらの生成した逆数インスタンスの基底真理を推論する。 信頼度向上のために生成されたインスタンスを活用するため、ロバストフェアはさらに、データ拡張とモデル再トレーニングのために、元のトレーニングセットに似た敵インスタンスを優先するデータ拡張戦略を提案する。 特にRobustFairは、標準の頑健さや個別の公正さ評価でしばしば見落とされがちな、頑健さと個別の公正さの絡み合った問題を検出することに長けている。 この機能はRobustFairに、どちらのドメインの欠陥も同時に識別することで、ロバストネスと個別の公平性評価の両方を強化する権限を与える。 ベンチマークデータセットにおける実証的ケーススタディと量子レグレッション分析は、偽または偏りの対向インスタンス生成に対するフェアネス混乱行列誘導摂動の有効性を実証する。

Deep neural networks (DNNs) often face challenges due to their vulnerability to various adversarial perturbations, including false perturbations that undermine prediction accuracy and biased perturbations that cause biased predictions for similar inputs. This paper introduces a novel approach, RobustFair, to evaluate the accurate fairness of DNNs when subjected to these false or biased perturbations. RobustFair employs the notion of the fairness confusion matrix induced in accurate fairness to identify the crucial input features for perturbations. This matrix categorizes predictions as true fair, true biased, false fair, and false biased, and the perturbations guided by it can produce a dual impact on instances and their similar counterparts to either undermine prediction accuracy (robustness) or cause biased predictions (individual fairness). RobustFair then infers the ground truth of these generated adversarial instances based on their loss function values approximated by the total derivative. To leverage the generated instances for trustworthiness improvement, RobustFair further proposes a data augmentation strategy to prioritize adversarial instances resembling the original training set, for data augmentation and model retraining. Notably, RobustFair excels at detecting intertwined issues of robustness and individual fairness, which are frequently overlooked in standard robustness and individual fairness evaluations. This capability empowers RobustFair to enhance both robustness and individual fairness evaluations by concurrently identifying defects in either domain. Empirical case studies and quantile regression analyses on benchmark datasets demonstrate the effectiveness of the fairness confusion matrix guided perturbation for false or biased adversarial instance generation.
翻訳日:2023-10-13 12:47:01 公開日:2023-10-08
# 文脈学習を用いた時間的知識グラフ予測

Temporal Knowledge Graph Forecasting Using In-Context Learning ( http://arxiv.org/abs/2305.10613v2 )

ライセンス: Link先を確認
Dong-Ho Lee, Kian Ahrabian, Woojeong Jin, Fred Morstatter, Jay Pujara(参考訳) 時間的知識グラフ(TKG)予測ベンチマークは、過去の事実の知識を用いて将来の事実を予測するためにモデルに挑戦する。 本稿では,大規模言語モデル (LLM) をテキスト内学習 (ICL) を用いてこれらのベンチマークに適用する。 特に構造的および時間的情報を取り込むための微調整や明示的なモジュールを使わずに、tkg予測にllmがどの程度使用できるかを検討する。 本実験では,関連する歴史的事実をプロンプトに変換し,トークン確率を用いてランキング予測を生成する枠組みを提案する。 驚くべきことに、我々は、tkg予測のために慎重に設計・訓練された最先端のtkgモデルと同等にllmが機能するのを観察した。 提案手法は,様々な特徴を持つモデルやデータセットにまたがる性能評価を行い,文脈情報を作成するための代替ヒューリスティックスと,tkg法や単純な頻度ベースラインと対比する。 また、エンティティ/リレーショナル名の代わりに数値インデックスを使うこと、すなわち意味情報を隠すことは、パフォーマンスに大きな影響を与えない(\pm$0.4\% hit@1)。 これは、事前の意味知識が不要であることを示している;代わりに、llmは、そのようなパフォーマンスを達成するためにコンテキスト内の既存のパターンを活用できる。 また, iclは, 一般的な情報や最近の情報に基づく単純な予測を超えて, 歴史的文脈から不規則なパターンを学習することを可能にする。

Temporal knowledge graph (TKG) forecasting benchmarks challenge models to predict future facts using knowledge of past facts. In this paper, we apply large language models (LLMs) to these benchmarks using in-context learning (ICL). We investigate whether and to what extent LLMs can be used for TKG forecasting, especially without any fine-tuning or explicit modules for capturing structural and temporal information. For our experiments, we present a framework that converts relevant historical facts into prompts and generates ranked predictions using token probabilities. Surprisingly, we observe that LLMs, out-of-the-box, perform on par with state-of-the-art TKG models carefully designed and trained for TKG forecasting. Our extensive evaluation presents performances across several models and datasets with different characteristics, compares alternative heuristics for preparing contextual information, and contrasts to prominent TKG methods and simple frequency and recency baselines. We also discover that using numerical indices instead of entity/relation names, i.e., hiding semantic information, does not significantly affect the performance ($\pm$0.4\% Hit@1). This shows that prior semantic knowledge is unnecessary; instead, LLMs can leverage the existing patterns in the context to achieve such performance. Our analysis also reveals that ICL enables LLMs to learn irregular patterns from the historical context, going beyond simple predictions based on common or recent information.
翻訳日:2023-10-13 12:46:28 公開日:2023-10-08
# 非自己回帰型文書レベル機械翻訳

Non-Autoregressive Document-Level Machine Translation ( http://arxiv.org/abs/2305.12878v2 )

ライセンス: Link先を確認
Guangsheng Bao, Zhiyang Teng, Hao Zhou, Jianhao Yan, Yue Zhang(参考訳) 非自己回帰翻訳(nat)モデルは、文レベルの機械翻訳(mt)の文脈における自己回帰翻訳(at)モデルと同等の性能と優れた速度を達成する。 しかし、それらの能力は文書レベルのMTでは探索されず、実際のシナリオでの使用を妨げる。 本稿では,文書レベルMTの文脈における典型的なNATモデルを包括的に検証し,ソースとターゲット間の文アライメントの簡易かつ効果的な設計を提案する。 実験により、NATモデルは文書上で高い加速度を達成し、文のアライメントによりその性能が著しく向上することが示された。 しかし、現在のNATモデルではATモデルと比べて大きな性能差がある。 さらに,NATモデルは文書レベルのMTの文脈において,多相性や誤配の問題に悩まされ,現在のNATモデルは文書コンテキストの活用や談話現象の処理に苦慮していることが明らかとなった。 私たちはこれらの課題を精査し、コードを \url{https://github.com/baoguangsheng/nat-on-doc}で提供する。

Non-autoregressive translation (NAT) models achieve comparable performance and superior speed compared to auto-regressive translation (AT) models in the context of sentence-level machine translation (MT). However, their abilities are unexplored in document-level MT, hindering their usage in real scenarios. In this paper, we conduct a comprehensive examination of typical NAT models in the context of document-level MT and further propose a simple but effective design of sentence alignment between source and target. Experiments show that NAT models achieve high acceleration on documents, and sentence alignment significantly enhances their performance. However, current NAT models still have a significant performance gap compared to their AT counterparts. Further investigation reveals that NAT models suffer more from the multi-modality and misalignment issues in the context of document-level MT, and current NAT models struggle with exploiting document context and handling discourse phenomena. We delve into these challenges and provide our code at \url{https://github.com/baoguangsheng/nat-on-doc}.
翻訳日:2023-10-13 12:34:46 公開日:2023-10-08
# 参照型マルチビュー画像合成におけるテキストと画像の調和

Harnessing Text-to-Image Attention Prior for Reference-based Multi-view Image Synthesis ( http://arxiv.org/abs/2305.11577v2 )

ライセンス: Link先を確認
Chenjie Cao, Yunuo Cai, Qiaole Dong, Yikai Wang, Yanwei Fu(参考訳) 本稿では、参照画像との視覚的整合性を確保しつつ、特定の画像要素やシーン全体を作成することを目的としたマルチビュー画像合成の領域について検討する。 この課題を2つのアプローチに分類する: 参照画像からの構造的手がかり(参照に基づくインペインティング、ref-インペインティング)による局所合成と、参照例のみに基づいた全く新しい画像を生成するグローバル合成(novel view synthesis, nvs)である。 近年,テキスト・ツー・イメージ(T2I)生成モデルが様々な領域で注目されている。 しかし,参照画像と対象画像との複雑な相関関係から,マルチビュー合成への適応が困難である。 これらの課題を効果的に解決するために、我々は、T2Iモデルにおける既存の注意機構によって強化された、局所的およびグローバルな参照ベース多視点合成を文脈的着色として再構成する統一的なアプローチであるARCI(Attention Reactivated Contextual Inpainting)を導入する。 形式的には、自己注意を利用して異なる参照ビューにまたがる特徴相関を学習し、一方、相互注意は即時チューニングによって生成を制御する。 テキスト誘導インペインティング用に微調整されたStableDiffusionに基づくARCIのコントリビューションには、既製のT2Iモデルで難しいマルチビュー合成タスクを巧みに処理すること、生成制御のためのタスクとビュー固有のプロンプトチューニングの導入、エンドツーエンドのRef-inpaintingの実現、自動回帰NVSのためのブロック因果マスクの実装などが含まれます。 また、arciをマルチビュー生成に拡張して、同じアーキテクチャとの一貫性を高め、広範囲な実験によって検証することで、arciの汎用性を示す。 コードとモデルは \url{https://github.com/ewrfcas/ARCI} でリリースされる。

This paper explores the domain of multi-view image synthesis, aiming to create specific image elements or entire scenes while ensuring visual consistency with reference images. We categorize this task into two approaches: local synthesis, guided by structural cues from reference images (Reference-based inpainting, Ref-inpainting), and global synthesis, which generates entirely new images based solely on reference examples (Novel View Synthesis, NVS). In recent years, Text-to-Image (T2I) generative models have gained attention in various domains. However, adapting them for multi-view synthesis is challenging due to the intricate correlations between reference and target images. To address these challenges efficiently, we introduce Attention Reactivated Contextual Inpainting (ARCI), a unified approach that reformulates both local and global reference-based multi-view synthesis as contextual inpainting, which is enhanced with pre-existing attention mechanisms in T2I models. Formally, self-attention is leveraged to learn feature correlations across different reference views, while cross-attention is utilized to control the generation through prompt tuning. Our contributions of ARCI, built upon the StableDiffusion fine-tuned for text-guided inpainting, include skillfully handling difficult multi-view synthesis tasks with off-the-shelf T2I models, introducing task and view-specific prompt tuning for generative control, achieving end-to-end Ref-inpainting, and implementing block causal masking for autoregressive NVS. We also show the versatility of ARCI by extending it to multi-view generation for superior consistency with the same architecture, which has also been validated through extensive experiments. Codes and models will be released in \url{https://github.com/ewrfcas/ARCI}.
翻訳日:2023-10-13 12:33:51 公開日:2023-10-08
# autotrial: 臨床試験設計のための言語モデルプロンプト

AutoTrial: Prompting Language Models for Clinical Trial Design ( http://arxiv.org/abs/2305.11366v2 )

ライセンス: Link先を確認
Zifeng Wang and Cao Xiao and Jimeng Sun(参考訳) 臨床試験は薬物開発に不可欠である。 適切な適格基準(すなわち、患者採用の包含・排除基準)を構築することは、試験の成功に不可欠である。 臨床治験プロトコルの適切な設計は、患者の十分なカバレッジを確保するために、同様の前例試験とその適格基準を検討するべきである。 本稿では,言語モデルを用いた臨床資格基準の設計を支援するAutoTrialという手法を提案する。 1)離散的およびニューラルプロンプトのハイブリッドによる命令下での制御可能な生成、(2)コンテキスト内学習によるスケーラブルな知識の取り込み、(3)アウトプットを理解するための合理性を提供する明示的推論チェーンを可能にする。 70K以上の臨床試験における実験は、AutoTrialが、流動的で一貫性があり、関連する臨床概念をターゲットトライアルに取得する上で高い精度で高品質な基準テキストを生成することを検証する。 提案手法は,パラメータサイズがはるかに小さく,人的評価によりgpt-3.5のベースラインに対して約60%の勝利率を得た。

Clinical trials are critical for drug development. Constructing the appropriate eligibility criteria (i.e., the inclusion/exclusion criteria for patient recruitment) is essential for the trial's success. Proper design of clinical trial protocols should consider similar precedent trials and their eligibility criteria to ensure sufficient patient coverage. In this paper, we present a method named AutoTrial to aid the design of clinical eligibility criteria using language models. It allows (1) controllable generation under instructions via a hybrid of discrete and neural prompting, (2) scalable knowledge incorporation via in-context learning, and (3) explicit reasoning chains to provide rationales for understanding the outputs. Experiments on over 70K clinical trials verify that AutoTrial generates high-quality criteria texts that are fluent and coherent and with high accuracy in capturing the relevant clinical concepts to the target trial. It is noteworthy that our method, with a much smaller parameter size, gains around 60% winning rate against the GPT-3.5 baselines via human evaluations.
翻訳日:2023-10-13 12:33:10 公開日:2023-10-08
# 軽量言語モジュールによる多言語知識の凝縮

Condensing Multilingual Knowledge with Lightweight Language-Specific Modules ( http://arxiv.org/abs/2305.13993v2 )

ライセンス: Link先を確認
Haoran Xu, Weiting Tan, Shuyue Stella Li, Yunmo Chen, Benjamin Van Durme, Philipp Koehn, Kenton Murray(参考訳) 言語固有の(LS)モジュールを組み込むことは、多言語機械翻訳の性能を高めるための実証された方法である。 このアプローチはFLOPをインフレしないため、Mixture-of-Experts (MoE)と似ている。 しかしながら、数百の言語(専門家)に対するこのアプローチのスケーラビリティは、完全連結層でフルランク行列によって導入されたパラメータの数が制限されるため、管理できない傾向がある。 本稿では,Language-Specific Matrix Synthesis (LMS)法について述べる。 このアプローチは、フルランク行列を近似するために、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。 さらに,複数のLSモジュールからの多言語知識をFuse Distillation (FD)技術で単一の共有モジュールに凝縮し,推論とモデルシリアライゼーションの効率化を図る。 LMS法は, 多数の多言語機械翻訳において, Switch Transformer 上の 1.73 BLEU 点と同一量の余剰パラメータで, 従来のLS法と MoE 法を著しく上回ることを示す。 重要なことに、lmsはより少ないパラメータで同等の翻訳性能を得ることができる。

Incorporating language-specific (LS) modules is a proven method to boost performance in multilingual machine translation. This approach bears similarity to Mixture-of-Experts (MoE) because it does not inflate FLOPs. However, the scalability of this approach to hundreds of languages (experts) tends to be unmanageable due to the prohibitive number of parameters introduced by full-rank matrices in fully-connected layers. In this work, we introduce the Language-Specific Matrix Synthesis (LMS) method. This approach constructs LS modules by generating low-rank matrices from two significantly smaller matrices to approximate the full-rank matrix. Furthermore, we condense multilingual knowledge from multiple LS modules into a single shared module with the Fuse Distillation (FD) technique to improve the efficiency of inference and model serialization. We show that our LMS method significantly outperforms previous LS methods and MoE methods with the same amount of extra parameters, e.g., 1.73 BLEU points over the Switch Transformer on many-to-many multilingual machine translation. Importantly, LMS is able to have comparable translation performance with much fewer parameters.
翻訳日:2023-10-13 12:24:47 公開日:2023-10-08
# 大規模言語モデルのための対話型学習アシスタントによる誤りから学ぶ

Learning from Mistakes via Interactive Study Assistant for Large Language Models ( http://arxiv.org/abs/2305.13829v2 )

ライセンス: Link先を確認
Danqing Wang, Lei Li(参考訳) 大規模言語モデル(LLM)は、フィードバックに基づいて生成を洗練できる有望な能力を示している。 しかし、フィードバックに基づくLLMの改良は必ずしも堅牢ではなく、誤った回答をもたらす可能性がある。 本稿では,その誤りを学習し,訂正するためのLarge Language Model (SALAM)を提案する。 本手法では, 誤りを分析し, 主LLMから改善ガイドラインを生成するための学習支援エージェントを提案する。 推論中に、ミスコレクションに基づいた一般的な誤解を特定し、LLMが同様のミスを避けるのに役立つガイドラインを提供する。 さらに,フィードバックインタラクションを成功させた模倣学習を用いて,学習アシスタントを微調整する。 2つの挑戦的フレームワーク(BBHとBBQ)に関する実験により、SALAMは最大10.7の精度でベースラインを上回ります。

Large language models (LLMs) have shown promising capabilities to refine their generation based on feedback. However, LLM refinement based on feedback is not always robust and may produce incorrect answers. In this paper, we propose Large LAnguage Model (SALAM) to learn and correct from their mistakes. Our method introduces a study assistant agent to analyze mistakes and generate improvement guidelines from the main LLM. During inference, it identifies common misunderstandings based on the mistake collections and provides guidelines for LLMs to help them avoid similar mistakes. We further finetune the study assistant using imitation learning with successful feedback interaction. Our experiments on two challenging frameworks (BBH and BBQ) demonstrate that SALAM outperforms baselines by a margin of up to 10.7 in accuracy.
翻訳日:2023-10-13 12:24:28 公開日:2023-10-08
# ゼロショットnluタスクにおけるプロンプトポジションの重要性

Prompt position really matters in few-shot and zero-shot NLU tasks ( http://arxiv.org/abs/2305.14493v2 )

ライセンス: Link先を確認
Junyu Mao and Stuart E. Middleton and Mahesan Niranjan(参考訳) プロンプトベースのモデルはゼロショット学習と少数ショット学習の分野で著しく進歩し、研究者から多くの注目を集めている。 効果的なプロンプトテンプレートの開発が重要な役割を果たす。 しかし、先行研究は主に、予備的なプロンプト位置を固定した迅速な語彙選択や埋め込み初期化に焦点を当てている。 本実験では,自然言語理解タスクにおいて,即時位置選択の現在までの最も包括的な分析を行う。 本研究は,モデル性能に及ぼすプロンプト位置の影響を定量化する。 先行研究で用いられるプロンプト位置は、ゼロショットと少数ショットの両方に最適化されることが多い。 これらの知見は、迅速な位置最適化を、既存のプロンプトエンジニアリングに焦点を当てた興味深い研究方向として示唆している。

Prompt-based models have made remarkable advancements in the fields of zero-shot and few-shot learning, attracting a lot of attention from researchers. Developing an effective prompt template plays a critical role. However, prior studies have mainly focused on prompt vocabulary selection or embedding initialization with the reserved prompt position fixed. In this empirical study, we conduct the most comprehensive analysis to date of prompt position option for natural language understanding tasks. Our findings quantify the substantial impact prompt position has on model performance. We observe that the prompt position used in prior studies is often sub-optimal for both zero-shot and few-shot settings. These findings suggest prompt position optimisation as an interesting research direction alongside the existing focus on prompt engineering.
翻訳日:2023-10-13 12:12:53 公開日:2023-10-08
# CREATOR:大規模言語モデルの抽象的・具体的な推論のためのツール作成

CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models ( http://arxiv.org/abs/2305.14318v2 )

ライセンス: Link先を確認
Cheng Qian, Chi Han, Yi R. Fung, Yujia Qin, Zhiyuan Liu, Heng Ji(参考訳) 大きな言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性と暗黙の推論の不安定性によって制限されている。 これらの制限を克服するために、私たちは、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案します。 CREATORは抽象ツール作成と具体的な決定実行を分離し、パフォーマンスが向上する。 算数ベンチマークとtabmwpベンチマークのクリエーターの評価を行い,それぞれ難解な算数コンペティション問題と多彩な表コンテンツからなる。 注目すべきは、CREATORが既存のチェーン・オブ・ソート、プログラム・オブ・ソート、ツールを使用するベースラインを上回っていることだ。 さらに、2kの多様な質問を特徴とするcreate challengeデータセットを導入し、llmsのツール作成能力の必要性とメリットを強調する。 さらなる研究により、LLMをツール作成者として活用することは知識伝達を促進することが示され、LLMは様々なレベルのツール作成能力を示し、様々な状況に適応することができる。 ツール作成能力はLLMの問題解決パラダイムに革命をもたらし、私たちは人工知能の次のフロンティアに近づきます。 すべてのコードとデータがリリースされます。

Large Language Models (LLMs) have made significant progress in utilizing tools, but their ability is limited by API availability and the instability of implicit reasoning, particularly when both planning and execution are involved. To overcome these limitations, we propose CREATOR, a novel framework that enables LLMs to create their own tools using documentation and code realization. CREATOR disentangles abstract tool creation and concrete decision execution, resulting in improved performance. We evaluate CREATOR on MATH and TabMWP benchmarks, respectively consisting of challenging math competition problems and diverse tabular contents. Remarkably, CREATOR outperforms existing chain-of-thought, program-of-thought, and tool-using baselines. Additionally, we introduce the Creation Challenge dataset, featuring 2K diverse questions, to emphasize the necessity and benefits of LLMs' tool creation ability. Further research demonstrates that leveraging LLMs as tool creators facilitates knowledge transfer, and LLMs exhibit varying levels of tool creation abilities, enabling them to adapt to diverse situations. The tool creation ability revolutionizes the LLM's problem-solving paradigm, driving us closer to the next frontier of artificial intelligence. All the codes and data are released.
翻訳日:2023-10-13 12:11:59 公開日:2023-10-08
# 限定的な推論によるイベント予測を改善する言語モデル

Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning ( http://arxiv.org/abs/2305.16646v2 )

ライセンス: Link先を確認
Xiaoming Shi, Siqiao Xue, Kangrui Wang, Fan Zhou, James Y. Zhang, Jun Zhou, Chenhao Tan, Hongyuan Mei(参考訳) 大規模言語モデルは、幅広い推論タスクにおいて驚くべきパフォーマンスを示している。 本稿では,実世界の事象を推論できるかどうかを調査し,イベントシーケンスモデルの予測性能の向上に寄与する。 イベント予測に大規模な言語モデルを統合するフレームワークであるLAMPを設計する。 特に、言語モデルは、イベントシーケンスモデルを支援するためにアブダプティブ推論を実行する: イベントモデルは、与えられた過去のイベントの予測を提案し、いくつかの専門家によるデモによって指示される、言語モデルは、各提案に可能な原因を示唆することを学ぶ; 検索モジュールは、その原因にマッチする以前のイベントを見つける; スコアリング関数は、検索されたイベントが実際に提案を引き起こすかどうかを調べるために学習する。 いくつかの挑戦的な実世界のデータセットに関する広範な実験を通じて、大規模言語モデルの推論能力のおかげで、我々のフレームワークが最先端のイベントシーケンスモデルを大幅に上回ることを実証しました。

Large language models have shown astonishing performance on a wide range of reasoning tasks. In this paper, we investigate whether they could reason about real-world events and help improve the prediction performance of event sequence models. We design LAMP, a framework that integrates a large language model in event prediction. Particularly, the language model performs abductive reasoning to assist an event sequence model: the event model proposes predictions on future events given the past; instructed by a few expert-annotated demonstrations, the language model learns to suggest possible causes for each proposal; a search module finds out the previous events that match the causes; a scoring function learns to examine whether the retrieved events could actually cause the proposal. Through extensive experiments on several challenging real-world datasets, we demonstrate that our framework -- thanks to the reasoning capabilities of large language models -- could significantly outperform the state-of-the-art event sequence models.
翻訳日:2023-10-13 12:05:31 公開日:2023-10-08
# 野生動物におけるマルチモーダル問合せ対象検出

Multi-modal Queried Object Detection in the Wild ( http://arxiv.org/abs/2305.18980v2 )

ライセンス: Link先を確認
Yifan Xu, Mengdan Zhang, Chaoyou Fu, Peixian Chen, Xiaoshan Yang, Ke Li, Changsheng Xu(参考訳) オープンセットの一般化によるテキスト記述と,豊富な記述の粒度をカテゴリクエリとして活用するための,効率的なアーキテクチャと事前学習戦略設計であるMQ-Detを導入する。 MQ-Detは、既存の言語クエリ専用検出器にビジョンクエリを組み込む。 凍った検出器上にゲート型クラススケーブルパーシーバーモジュールを装着し,カテゴリテキストをクラス別視覚情報で拡張する。 凍結検出器がもたらした学習慣性問題に対処するために,視覚条件付きマスキング言語予測戦略を提案する。 MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略は、ほとんどの言語でクエリされたオブジェクト検出器と互換性があるため、汎用的なアプリケーションが得られる。 実験の結果,マルチモーダルクエリはオープンワールド検出に大きく寄与することがわかった。 例えば、MQ-Detは、LVISベンチマークにおける最先端のオープンセット検出器GLIPを、ダウンストリームの微調整無しにマルチモーダルクエリによって+7.8%AP改善し、平均+6.3%APは13のショットダウンストリームタスクで+6.3%APとなり、GLIPが要求する3%の調整時間しか必要としない。 コードはhttps://github.com/yifanxu74/mq-detで入手できる。

We introduce MQ-Det, an efficient architecture and pre-training strategy design to utilize both textual description with open-set generalization and visual exemplars with rich description granularity as category queries, namely, Multi-modal Queried object Detection, for real-world detection with both open-vocabulary categories and various granularity. MQ-Det incorporates vision queries into existing well-established language-queried-only detectors. A plug-and-play gated class-scalable perceiver module upon the frozen detector is proposed to augment category text with class-wise visual information. To address the learning inertia problem brought by the frozen detector, a vision conditioned masked language prediction strategy is proposed. MQ-Det's simple yet effective architecture and training strategy design is compatible with most language-queried object detectors, thus yielding versatile applications. Experimental results demonstrate that multi-modal queries largely boost open-world detection. For instance, MQ-Det significantly improves the state-of-the-art open-set detector GLIP by +7.8% AP on the LVIS benchmark via multi-modal queries without any downstream finetuning, and averagely +6.3% AP on 13 few-shot downstream tasks, with merely additional 3% modulating time required by GLIP. Code is available at https://github.com/YifanXu74/MQ-Det.
翻訳日:2023-10-13 11:43:10 公開日:2023-10-08
# ソーシャルメディアにおけるストレス・抑うつ認識のためのマルチタスク学習

Multitask learning for recognizing stress and depression in social media ( http://arxiv.org/abs/2305.18907v2 )

ライセンス: Link先を確認
Loukas Ilias, Dimitris Askounis(参考訳) ストレスと抑うつは、人生の速いペースであらゆる年齢の人々の間で最近流行している。 人々はソーシャルメディアを使って感情を表現します。 したがって、ソーシャルメディアはストレスや抑うつを早期に発見するための貴重な情報形式である。 多くの研究がストレスと抑うつの早期認識をターゲットとして導入されているが、まだ限界がある。 抑うつと感情(あるいはフィギュラティブ言語)をそれぞれプライマリタスクと補助タスクとして使用するマルチタスク学習設定が提案されている。 しかし、ストレスはうつ病と密接な関係にあるものの、研究者はこの2つのタスクを2つの別々のタスクとして直面している。 そこで本研究では,異なる条件下で収集された2つのデータセットを活用し,抑うつとストレスを主タスクと補助タスクとして用いる2つのマルチタスク学習フレームワークを提案する。 具体的には、うつ病データセットと5つのドメインの10のサブレディットからのストレスの多いポストを含むストレスの多いデータセットを使用する。 最初のアプローチでは、各投稿は共有BERTレイヤを通過し、両方のタスクによって更新される。 次に、2つの別々のBERTエンコーダレイヤが利用され、各タスクによって個別に更新される。 第2のアプローチでは、関心融合ネットワークによって重み付けられた共有層とタスク固有の層で構成されている。 私たちは一連の実験を行い、既存の研究イニシアティブ、シングルタスク学習、トランスファー学習と比較します。 実験は、最先端のアプローチに対するアプローチの多くの利点を示している。

Stress and depression are prevalent nowadays across people of all ages due to the quick paces of life. People use social media to express their feelings. Thus, social media constitute a valuable form of information for the early detection of stress and depression. Although many research works have been introduced targeting the early recognition of stress and depression, there are still limitations. There have been proposed multi-task learning settings, which use depression and emotion (or figurative language) as the primary and auxiliary tasks respectively. However, although stress is inextricably linked with depression, researchers face these two tasks as two separate tasks. To address these limitations, we present the first study, which exploits two different datasets collected under different conditions, and introduce two multitask learning frameworks, which use depression and stress as the main and auxiliary tasks respectively. Specifically, we use a depression dataset and a stressful dataset including stressful posts from ten subreddits of five domains. In terms of the first approach, each post passes through a shared BERT layer, which is updated by both tasks. Next, two separate BERT encoder layers are exploited, which are updated by each task separately. Regarding the second approach, it consists of shared and task-specific layers weighted by attention fusion networks. We conduct a series of experiments and compare our approaches with existing research initiatives, single-task learning, and transfer learning. Experiments show multiple advantages of our approaches over state-of-the-art ones.
翻訳日:2023-10-13 11:42:41 公開日:2023-10-08
# 反体制的腐敗に対するロバストなリプシッツ・バンディット

Robust Lipschitz Bandits to Adversarial Corruptions ( http://arxiv.org/abs/2305.18543v2 )

ライセンス: Link先を確認
Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続腕集合を扱う確率的バンディットの変種である。 本稿では,適応的相手が確率的報酬を最大で$C$まで損なうような,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。 予算は、時間的水平線における汚職水準の合計によって測定される。 我々は、攻撃前の現在の行動に弱い敵と強い敵の両方が気づいておらず、強い敵はそれを観察できると考えている。 我々の研究は、汚職の総額$C$がエージェントに未公表である場合でも、両方の種類の敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。 各タイプの敵に対して下限を提供し,本アルゴリズムが強大な場合において最適であることを示す。 最後に,従来の2種類の攻撃に対するアルゴリズムの有効性を示す実験を行った。

Lipschitz bandit is a variant of stochastic bandits that deals with a continuous arm set defined on a metric space, where the reward function is subject to a Lipschitz constraint. In this paper, we introduce a new problem of Lipschitz bandits in the presence of adversarial corruptions where an adaptive adversary corrupts the stochastic rewards up to a total budget $C$. The budget is measured by the sum of corruption levels across the time horizon $T$. We consider both weak and strong adversaries, where the weak adversary is unaware of the current action before the attack, while the strong one can observe it. Our work presents the first line of robust Lipschitz bandit algorithms that can achieve sub-linear regret under both types of adversary, even when the total budget of corruption $C$ is unrevealed to the agent. We provide a lower bound under each type of adversary, and show that our algorithm is optimal under the strong case. Finally, we conduct experiments to illustrate the effectiveness of our algorithms against two classic kinds of attacks.
翻訳日:2023-10-13 11:42:20 公開日:2023-10-08
# Valley:大きな言語モデルによるビデオアシスタントの強化

Valley: Video Assistant with Large Language model Enhanced abilitY ( http://arxiv.org/abs/2306.07207v2 )

ライセンス: Link先を確認
Ruipu Luo, Ziwang Zhao, Min Yang, Junwei Dong, Da Li, Pengcheng Lu, Tao Wang, Linmei Hu, Minghui Qiu, Zhongyu Wei(参考訳) 大きな言語モデル(LLM)とその卓越した会話能力は、さまざまなアプリケーションで印象的なパフォーマンスを示し、恐ろしいAIアシスタントとして登場した。 llmのパワーを利用して、ビジュアルアプリケーションのためのマルチモーダルaiアシスタントを構築することができるだろうか? 近年,複数のマルチモーダルモデルが開発されている。 彼らは通常、視覚エンコーダと言語モデルのセマンティクスを調整するために適応モジュールを事前訓練し、次に命令追従データに関する微調整を行う。 しかし、このパイプラインは画像と言語理解において成功しているが、共同ビデオと言語理解における効果は広く研究されていない。 本稿では,一般的なフレームワーク内でビデオ,画像,言語を解釈可能な,新しいマルチモーダル基盤モデルを開発することを目的とする。 この目標を達成するために,大きな言語モデルを備えたビデオアシスタントであるvalleyを紹介する。 バレーはllm、テンポラリモデリングモジュール、ビジュアルエンコーダ、ビジュアルモードとテキストモードを橋渡しするために設計された単純なプロジェクションモジュールで構成されている。 映像理解と指示追従能力でバレーを強化するために,映像指導データセットを構築し,その訓練に2段階のチューニング手順を採用する。 具体的には,マルチショットキャプション,ロングビデオ記述,アクション認識,因果関係推論など,さまざまなタスクを包含するタスク指向会話データの構築を容易にするためにchatgptを採用している。 続いて,事前学習型インストラクション調整パイプラインを採用し,視覚とテキストのモダリティを調整し,バレーの指示追従能力を向上させる。 質的な実験は、ヴァレーが複雑なビデオ理解シナリオを容易にする、非常に効果的なビデオアシスタントとして機能する可能性を実証している。

Large language models (LLMs), with their remarkable conversational capabilities, have demonstrated impressive performance across various applications and have emerged as formidable AI assistants. In view of this, it raises an intuitive question: Can we harness the power of LLMs to build multimodal AI assistants for visual applications? Recently, several multi-modal models have been developed for this purpose. They typically pre-train an adaptation module to align the semantics of the vision encoder and language model, followed by fine-tuning on instruction-following data. However, despite the success of this pipeline in image and language understanding, its effectiveness in joint video and language understanding has not been widely explored. In this paper, we aim to develop a novel multi-modal foundation model capable of comprehending video, image, and language within a general framework. To achieve this goal, we introduce Valley, a Video Assistant with Large Language model Enhanced abilitY. The Valley consists of a LLM, a temporal modeling module, a visual encoder, and a simple projection module designed to bridge visual and textual modes. To empower Valley with video comprehension and instruction-following capabilities, we construct a video instruction dataset and adopt a two-stage tuning procedure to train it. Specifically, we employ ChatGPT to facilitate the construction of task-oriented conversation data encompassing various tasks, including multi-shot captions, long video descriptions, action recognition, causal relationship inference, etc. Subsequently, we adopt a pre-training-then-instructions-tuned pipeline to align visual and textual modalities and improve the instruction-following capability of Valley. Qualitative experiments demonstrate that Valley has the potential to function as a highly effective video assistant that can make complex video understanding scenarios easy.
翻訳日:2023-10-13 09:01:13 公開日:2023-10-08
# PEACE:多言語Hate音声検出-因果誘導フレームワーク

PEACE: Cross-Platform Hate Speech Detection- A Causality-guided Framework ( http://arxiv.org/abs/2306.08804v2 )

ライセンス: Link先を確認
Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, and Huan Liu(参考訳) ヘイトスピーチ検出(Hate speech detection)とは、宗教、性別、性的指向、その他の特徴に基づいて個人や集団を軽蔑することを目的とした、憎悪のあるコンテンツを検出するタスクである。 プラットフォームの異なるポリシーのため、さまざまなグループがさまざまな方法で憎しみを表明しています。 さらに,一部のプラットフォームにラベル付きデータがないため,ヘイトスピーチ検出モデルの構築が困難になる。 この目的のために、クロスプラットフォーム設定のための一般化可能なヘイトスピーチ検出モデルを学ぶことができ、そこで、1つの(ソース)プラットフォームからデータ上のモデルをトレーニングし、複数の(ターゲット)プラットフォームにまたがってモデルを一般化する。 既存の一般化モデルは言語的手がかりや補助情報に依存しており、ソースプラットフォーム上の特定のタグや特定の種類の単語(例えば乱用語)に偏り、したがってターゲットプラットフォームには適用されない。 社会的・心理学的理論に着想を得た我々は、これらの分布シフトを通してヘイトスピーチを検出するための一般化された表現を学ぶために活用できる固有の因果的手がかりが存在するかどうかを探求する。 この目的のために我々は,憎悪コンテンツに普遍的に現れる2つの内在的因果的手がかりを識別し,活用する因果関係に基づく枠組み「平和」を提案する。 複数のプラットフォーム(分散シフトを示す)で広範な実験を行い、クロスプラットフォームの一般化に因果的手がかりが役立つかどうかを示します。

Hate speech detection refers to the task of detecting hateful content that aims at denigrating an individual or a group based on their religion, gender, sexual orientation, or other characteristics. Due to the different policies of the platforms, different groups of people express hate in different ways. Furthermore, due to the lack of labeled data in some platforms it becomes challenging to build hate speech detection models. To this end, we revisit if we can learn a generalizable hate speech detection model for the cross platform setting, where we train the model on the data from one (source) platform and generalize the model across multiple (target) platforms. Existing generalization models rely on linguistic cues or auxiliary information, making them biased towards certain tags or certain kinds of words (e.g., abusive words) on the source platform and thus not applicable to the target platforms. Inspired by social and psychological theories, we endeavor to explore if there exist inherent causal cues that can be leveraged to learn generalizable representations for detecting hate speech across these distribution shifts. To this end, we propose a causality-guided framework, PEACE, that identifies and leverages two intrinsic causal cues omnipresent in hateful content: the overall sentiment and the aggression in the text. We conduct extensive experiments across multiple platforms (representing the distribution shift) showing if causal cues can help cross-platform generalization.
翻訳日:2023-10-13 08:49:59 公開日:2023-10-08
# 自然言語処理における操作表現

Operationalising Representation in Natural Language Processing ( http://arxiv.org/abs/2306.08193v2 )

ライセンス: Link先を確認
Jacqueline Harding(参考訳) 認知科学の哲学の中心性にもかかわらず、現代のNLP実践における表現の概念にかかわる哲学的な研究はほとんどない。 本稿では,認知科学のアイデアに基づいて,ニューラルNLPモデルの構成要素に関する表現的クレームを評価するための枠組みを提案し,モデルの構成要素が特性を表すかどうかを評価するための3つの基準を提案し,これらの基準を,NLP(およびより広義の深層学習)で一般的な分析手法であるプローブ分類器を用いて運用する。 哲学的にインフォームドされた表現の概念を運用するプロジェクトは、科学の哲学者とNLP実践者の両方にとって興味がある。 これは哲学者に表現の性質に関する主張のための新しい試験場を与え、NLPの研究者が実証実験に関する大規模な文献を整理するのを手助けし、経験的研究のための新しい道筋を示唆している。

Despite its centrality in the philosophy of cognitive science, there has been little prior philosophical work engaging with the notion of representation in contemporary NLP practice. This paper attempts to fill that lacuna: drawing on ideas from cognitive science, I introduce a framework for evaluating the representational claims made about components of neural NLP models, proposing three criteria with which to evaluate whether a component of a model represents a property and operationalising these criteria using probing classifiers, a popular analysis technique in NLP (and deep learning more broadly). The project of operationalising a philosophically-informed notion of representation should be of interest to both philosophers of science and NLP practitioners. It affords philosophers a novel testing-ground for claims about the nature of representation, and helps NLPers organise the large literature on probing experiments, suggesting novel avenues for empirical research.
翻訳日:2023-10-13 08:49:05 公開日:2023-10-08
# lookaroundオプティマイザ:$k$のステップ、平均1ステップ

Lookaround Optimizer: $k$ steps around, 1 step average ( http://arxiv.org/abs/2306.07684v2 )

ライセンス: Link先を確認
Jiangtao Zhang, Shunyu Liu, Jie Song, Tongtian Zhu, Zhengqi Xu, Mingli Song(参考訳) 重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。 しかし、既存の重量平均アプローチは、ポストホックな方法で1つのトレーニングコース(すなわち、トレーニングプロセス全体の完了後に重量が平均される)に沿って行われることが多く、ネットワーク間の多様性を著しく低下させ、効果を損なう。 本稿では,重量平均に着想を得たlookaroundを提案する。これは単純で効果的なsgdベースの最適化器で,より一般化されたフラットなミニマを導出する。 特に、Lookaroundはトレーニング期間中に、アラウンドステップと平均ステップの2つのステップを繰り返す。 それぞれのイテレーションで。 1)その周辺ステップは、共通点から始まり、異なるデータ拡張によって変換されたデータに基づいて、複数のネットワークを同時に訓練する。 2) 平均的なステップは、トレーニングされたネットワークを平均化し、次のイテレーションの出発点となる平均的なネットワークを得る。 平均的なステップは、トレーニング全体においてこれらのネットワークの重みの局所性を保証しますが、WAが機能するのは必須です。 我々は,コンバージェンス解析によるルックアラウンドの優位性を理論的に説明し,cnnとvitsを用いたcifarやimagenetなどの人気のあるベンチマークのルックアラウンドを評価するために広範な実験を行った。 私たちのコードはhttps://github.com/ardcy/lookaroundで利用可能です。

Weight Average (WA) is an active research topic due to its simplicity in ensembling deep networks and the effectiveness in promoting generalization. Existing weight average approaches, however, are often carried out along only one training trajectory in a post-hoc manner (i.e., the weights are averaged after the entire training process is finished), which significantly degrades the diversity between networks and thus impairs the effectiveness. In this paper, inspired by weight average, we propose Lookaround, a straightforward yet effective SGD-based optimizer leading to flatter minima with better generalization. Specifically, Lookaround iterates two steps during the whole training period: the around step and the average step. In each iteration, 1) the around step starts from a common point and trains multiple networks simultaneously, each on transformed data by a different data augmentation, and 2) the average step averages these trained networks to get the averaged network, which serves as the starting point for the next iteration. The around step improves the functionality diversity while the average step guarantees the weight locality of these networks during the whole training, which is essential for WA to work. We theoretically explain the superiority of Lookaround by convergence analysis, and make extensive experiments to evaluate Lookaround on popular benchmarks including CIFAR and ImageNet with both CNNs and ViTs, demonstrating clear superiority over state-of-the-arts. Our code is available at https://github.com/Ardcy/Lookaround.
翻訳日:2023-10-13 08:48:15 公開日:2023-10-08
# アメリカ合衆国国勢調査局のプライバシー保護方法によるバイアスと騒音の評価

Evaluating Bias and Noise Induced by the U.S. Census Bureau's Privacy Protection Methods ( http://arxiv.org/abs/2306.07521v2 )

ライセンス: Link先を確認
Christopher T. Kenny, Shiro Kuriwaki, Cory McCartan, Tyler Simko, Kosuke Imai(参考訳) アメリカ合衆国国勢調査局は、国勢調査統計の正確さと個々の情報の保護との間に難しいトレードオフに直面している。 本研究では,2020年国勢調査に採用したTopDownアルゴリズムと,以前の3つの国勢調査に実装されたスワッピングアルゴリズムの2つの主要な開示回避システムによるバイアスとノイズの独立性評価を行う。 本評価は,2010年度国勢調査に適用したtopdownアルゴリズムの2つの独立実行に加えて,ノイズ測定ファイル(nmf)を活用する。 NMFには、特にヒスパニック系および多人種集団にとって、直接的に役立つノイズが多すぎることが判明した。 TopDownのポストプロセッシングはNMFノイズを劇的に低減し、スワップの精度に類似したデータを生成する。 TopDownアルゴリズムとスワップアルゴリズムの両方の推定誤差は、通常、国勢調査誤差の他の源ほど大きくはないが、人口が少ない地理学では比較的重要なものである。

The United States Census Bureau faces a difficult trade-off between the accuracy of Census statistics and the protection of individual information. We conduct the first independent evaluation of bias and noise induced by the Bureau's two main disclosure avoidance systems: the TopDown algorithm employed for the 2020 Census and the swapping algorithm implemented for the three previous Censuses. Our evaluation leverages the Noisy Measure File (NMF) as well as two independent runs of the TopDown algorithm applied to the 2010 decennial Census. We find that the NMF contains too much noise to be directly useful, especially for Hispanic and multiracial populations. TopDown's post-processing dramatically reduces the NMF noise and produces data whose accuracy is similar to that of swapping. While the estimated errors for both TopDown and swapping algorithms are generally no greater than other sources of Census error, they can be relatively substantial for geographies with small total populations.
翻訳日:2023-10-13 08:47:15 公開日:2023-10-08
# ワイヤタップチャネル上の連続可変量子鍵分布に対する状態判別受信器の最適化

Optimizing state-discrimination receivers for continuous-variable quantum key distribution over a wiretap channel ( http://arxiv.org/abs/2306.11493v2 )

ライセンス: Link先を確認
Michele N. Notarnicola, Marcin Jarzyna, Stefano Olivares and Konrad Banaszek(参考訳) 我々は、コヒーレント状態の第四相シフトキー(QPSK)を用いた連続可変量子鍵分布(CV-QKD)プロトコルと、量子状態判別シナリオにおける誤差確率を最小化する量子受信機にインスパイアされた非ガウス計測に対処する。 我々は、唯一のチャネル損失を収集するために、盗聴可能な盗聴が制限される純粋損失量子通信路を考える。 我々は、状態判別受信機の特性評価を行い、漸近セキュア鍵レート(SKR)を最大化する最適化受信機、すなわちキーレート最適化受信機(KOR)を設計し、その性能をかなり良い測定器(PGM)とヘテロダインベースのプロトコルと比較する。 我々はKORが大都市圏間ネットワークにおけるSKRを増大させることを示す。 最後に, 移動フィードフォワード受信機などの実現可能なスキームの実装についても検討し, 特にskrの増加について考察した。

We address a continuous-variable quantum key distribution (CV-QKD) protocol employing quaternary phase-shift-keying (QPSK) of coherent states and a non-Gaussian measurement inspired by quantum receivers minimizing the error probability in a quantum-state-discrimination scenario. We consider a pure-loss quantum wiretap channel, in which a possible eavesdropper is limited to collect the sole channel losses. We perform a characterization of state-discrimination receivers and design an optimized receiver maximizing the asymptotic secure key rate (SKR), namely the key-rate optimized receiver (KOR), comparing its performance with respect to the pretty good measurement (PGM) and the heterodyne-based protocol. We show that the KOR increases the SKR for metropolitan-network distances. Finally, we also investigate the implementations of feasible schemes, such as the displacement feed-forward receiver, obtaining an increase in the SKR in particular regimes.
翻訳日:2023-10-13 08:39:30 公開日:2023-10-08
# 埋め込み融合技術:ヘイトスピーチ検出の最適化

The Art of Embedding Fusion: Optimizing Hate Speech Detection ( http://arxiv.org/abs/2306.14939v2 )

ライセンス: Link先を確認
Mohammad Aflah Khan, Neemesh Yadav, Mohit Jain and Sanyam Goyal(参考訳) ヘイトスピーチ検出は、言語的および文脈的ニュアンスをキャプチャする必要がある、難しい自然言語処理タスクである。 事前訓練された言語モデル(PLM)は、このタスクを改善するためのリッチな意味表現を提供する。 しかし、PLM間の表現を効果的に組み合わせ、それらの相補的な強みを活用する方法についてはまだ知識が限られている。 本研究は,複数のPLMの様々な組み合わせ技術に光を当て,その効果を総合的に分析するものである。 以上の結果から,組込みを組み合わせるとわずかに改善するが,計算コストが高く,組み合わせの選択が最終結果に限界的な影響を与えることが示された。 また、コードベースをhttps://github.com/aflah02/The-Art-of-Embedding-Fusion-Optimizing-Hate-Speech-Detectionで公開しています。

Hate speech detection is a challenging natural language processing task that requires capturing linguistic and contextual nuances. Pre-trained language models (PLMs) offer rich semantic representations of text that can improve this task. However there is still limited knowledge about ways to effectively combine representations across PLMs and leverage their complementary strengths. In this work, we shed light on various combination techniques for several PLMs and comprehensively analyze their effectiveness. Our findings show that combining embeddings leads to slight improvements but at a high computational cost and the choice of combination has marginal effect on the final outcome. We also make our codebase public at https://github.com/aflah02/The-Art-of-Embedding-Fusion-Optimizing-Hate-Speech-Detection .
翻訳日:2023-10-13 08:26:44 公開日:2023-10-08
# u字形変圧器:時系列解析における高周波コンテキストの保持

U-shaped Transformer: Retain High Frequency Context in Time Series Analysis ( http://arxiv.org/abs/2307.09019v2 )

ライセンス: Link先を確認
Qingkui Chen, Yiqin Zhang(参考訳) 時系列予測は様々な産業分野で重要な役割を果たしている。 近年、トランスフォーマーバックボーンを持つニューラルネットワークは、コンピュータビジョンやNLPを含む多くの領域で顕著な成功を収めている。 時系列解析の分野では、最も単純なMLPネットワークでさえ、時系列予測タスクにおいて先進的なトランスフォーマーベースのネットワークより優れていることを示唆する研究もある。 しかし,これらの結果は時系列列に低ランクな性質があることを示唆している。 本稿では,変圧器の低域特性を考察し,MLPの利点を取り入れようと試みる。 我々は、unetに触発されたスキップ層接続を従来のトランスフォーマーバックボーンに採用し、入力から出力への高周波コンテキスト、すなわちu字形トランスフォーマーを保存する。 パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。 実験では,比較的低コストで,複数のデータセットをまたいだ高度な性能を示す。

Time series prediction plays a crucial role in various industrial fields. In recent years, neural networks with a transformer backbone have achieved remarkable success in many domains, including computer vision and NLP. In time series analysis domain, some studies have suggested that even the simplest MLP networks outperform advanced transformer-based networks on time series forecast tasks. However, we believe these findings indicate there to be low-rank properties in time series sequences. In this paper, we consider the low-pass characteristics of transformers and try to incorporate the advantages of MLP. We adopt skip-layer connections inspired by Unet into traditional transformer backbone, thus preserving high-frequency context from input to output, namely U-shaped Transformer. We introduce patch merge and split operation to extract features with different scales and use larger datasets to fully make use of the transformer backbone. Our experiments demonstrate that the model performs at an advanced level across multiple datasets with relatively low cost.
翻訳日:2023-10-13 05:49:10 公開日:2023-10-08
# skeleton-of-thought: 大きな言語モデルは並列デコードができる

Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding ( http://arxiv.org/abs/2307.15337v2 )

ライセンス: Link先を確認
Xuefei Ning, Zinan Lin, Zixuan Zhou, Zifu Wang, Huazhong Yang, Yu Wang(参考訳) 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成遅延を低減することである。 次世代の遅延の大きな原因の1つは、ほとんどの最先端のLCMで採用されているシーケンシャルデコードアプローチである。 本研究は,人間の思考と記述のプロセスに動機付けられ,まずLSMを誘導して回答の骨格を生成し,次いで並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に補完するSkeleton-of-Thought (SoT)を提案する。 SoTは12 LLMでかなりのスピードアップを提供するだけでなく、いくつかの質問カテゴリの回答品質を改善することもできる。 SoTは、推論効率をデータ中心で最適化するための最初の試みであり、LLMを人間らしくして答えの品質を追求する可能性をさらに強調している。

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose Skeleton-of-Thought (SoT), which first guides LLMs to generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-ups across 12 LLMs, but it can also potentially improve the answer quality on several question categories. SoT is an initial attempt at data-centric optimization for inference efficiency, and further underscores the potential of pushing LLMs to think more like a human for answer quality.
翻訳日:2023-10-13 05:33:35 公開日:2023-10-08
# テキスト・画像生成モデルにおける概念消去手法の概略

Circumventing Concept Erasure Methods For Text-to-Image Generative Models ( http://arxiv.org/abs/2308.01508v2 )

ライセンス: Link先を確認
Minh Pham, Kelly O. Marshall, Niv Cohen, Govind Mittal, Chinmay Hegde(参考訳) テキスト・ツー・イメージ生成モデルは、非常に幅広い概念のフォトリアリスティック・イメージを生成でき、その利用は一般大衆に広まっている。 逆に、これらのモデルには多くの欠点があり、性的に明示的な内容、無許可のミラーアートスタイル、さらには有名人の幻覚(またはディープフェイク)といったイメージを生成する可能性がある。 その結果、テキストから画像へのモデルからセンシティブな概念を「緩和する」ために様々な方法が提案されている。 本研究では,最近提案された5つの概念消去手法について検討し,これらの手法から対象概念が完全に抽出されていないことを示す。 具体的には、重みを変更せずに、衛生化されたモデルから「消去された」概念を抽出できる特別な学習語埋め込みの存在を利用する。 本研究は,ポストホック概念消去手法の不安定性に着目し,ai安全性のためのアルゴリズムツールキットとしての利用を問うものである。

Text-to-image generative models can produce photo-realistic images for an extremely broad range of concepts, and their usage has proliferated widely among the general public. On the flip side, these models have numerous drawbacks, including their potential to generate images featuring sexually explicit content, mirror artistic styles without permission, or even hallucinate (or deepfake) the likenesses of celebrities. Consequently, various methods have been proposed in order to "erase" sensitive concepts from text-to-image models. In this work, we examine five recently proposed concept erasure methods, and show that targeted concepts are not fully excised from any of these methods. Specifically, we leverage the existence of special learned word embeddings that can retrieve "erased" concepts from the sanitized models with no alterations to their weights. Our results highlight the brittleness of post hoc concept erasure methods, and call into question their use in the algorithmic toolkit for AI safety.
翻訳日:2023-10-13 05:12:43 公開日:2023-10-08
# 文脈的属性の推測と条件付けによるゼロショット視覚分類

More Context, Less Distraction: Zero-shot Visual Classification by Inferring and Conditioning on Contextual Attributes ( http://arxiv.org/abs/2308.01313v2 )

ライセンス: Link先を確認
Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang(参考訳) CLIPのような視覚言語モデルは、様々な視覚概念や自然言語の記述を理解する能力のため、ゼロショット画像分類で広く使われている。 しかし、より優れたパフォーマンスを達成するために、CLIPの先例のない人間的な理解能力をフル活用する方法は、まだ未解決の問題である。 対象を分類する際、人はまず背景と向きの文脈的属性(例えば、背景と向き)を推論し、背景から対象を分離し、その情報に基づいて対象を分類する。 このことから,CLIPを文脈属性で提供することにより,ゼロショット画像の分類が向上し,スプリアス機能への依存が軽減されることがわかった。 また、CLIP自体が画像から属性を合理的に推測できることも観察します。 そこで本研究では,2段階のゼロショット分類手法であるPerceptionCLIPを提案する。 画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。 実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,解釈可能性を実現することがわかった。 例えば、ViT-L/14のPerceptionCLIPは、Waterbirdsデータセットで16.5%、CelebAで3.5%、最悪のグループ精度を改善する。

Vision-language models like CLIP are widely used in zero-shot image classification due to their ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better performance is still an open question. This paper draws inspiration from the human visual perception process: when classifying an object, humans first infer contextual attributes (e.g., background and orientation) which help separate the foreground object from the background, and then classify the object based on this information. Inspired by it, we observe that providing CLIP with contextual attributes improves zero-shot image classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
翻訳日:2023-10-13 05:12:25 公開日:2023-10-08
# セルフ教師付き食品プレトレーニングのための特徴抑制コントラスト

Feature-Suppressed Contrast for Self-Supervised Food Pre-training ( http://arxiv.org/abs/2308.03272v3 )

ライセンス: Link先を確認
Xinda Liu, Yaohui Zhu, Linhu Liu, Jiang Tian, Lili Wang(参考訳) 食品画像分析における従来のアプローチは、広範囲な注釈付きデータセットに依存しており、このような画像の多様性と複雑な性質により、人間のラベル付け費用が大幅に削減されている。 コントラッシブな自己監督手法による無ラベルデータ利用の効果に着想を得て,これらの手法を無ラベル食品画像に活用することを検討した。 対照的な自己監督手法では、データ拡張によって画像からランダムに2つのビューが生成される。 しかし, 食品画像に関しては, 類似した情報を含む傾向があり, 相互情報が多く, コントラスト的自己教師付き学習の効果を阻害している。 この問題に対処するために,ビュー間の相互情報を減らすための機能抑制コントラスト(feasc)を提案する。 この2つのビューの類似した内容は特徴マップにおいて高度または高度に応答するため、提案されたferscは応答認識スキームを使用して、教師なしの方法でサルエント特徴をローカライズする。 他方のコントラストビューを変更せず、一方の視点に有意な特徴を抑圧することにより、2つの視点間の相互情報を低減し、自己教師付き食品事前学習におけるコントラスト学習の有効性を高める。 プラグアンドプレイモジュールとして提案手法は,BYOLとSimSiamを1.70 %$\sim$ 6.69 %の分類精度で改良する。 また,提案手法の有効性を実証し,下流のセグメンテーションタスクにおいて上向きの結果が得られた。

Most previous approaches for analyzing food images have relied on extensively annotated datasets, resulting in significant human labeling expenses due to the varied and intricate nature of such images. Inspired by the effectiveness of contrastive self-supervised methods in utilizing unlabelled data, we explore leveraging these techniques on unlabelled food images. In contrastive self-supervised methods, two views are randomly generated from an image by data augmentations. However, regarding food images, the two views tend to contain similar informative contents, causing large mutual information, which impedes the efficacy of contrastive self-supervised learning. To address this problem, we propose Feature Suppressed Contrast (FeaSC) to reduce mutual information between views. As the similar contents of the two views are salient or highly responsive in the feature map, the proposed FeaSC uses a response-aware scheme to localize salient features in an unsupervised manner. By suppressing some salient features in one view while leaving another contrast view unchanged, the mutual information between the two views is reduced, thereby enhancing the effectiveness of contrast learning for self-supervised food pre-training. As a plug-and-play module, the proposed method consistently improves BYOL and SimSiam by 1.70\% $\sim$ 6.69\% classification accuracy on four publicly available food recognition datasets. Superior results have also been achieved on downstream segmentation tasks, demonstrating the effectiveness of the proposed method.
翻訳日:2023-10-13 05:02:25 公開日:2023-10-08
# PARL:強化学習における政策整合のための統一フレームワーク

PARL: A Unified Framework for Policy Alignment in Reinforcement Learning ( http://arxiv.org/abs/2308.02585v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha, Huazheng Wang, Mengdi Wang, and Furong Huang(参考訳) 本稿では,最近強調された強化学習におけるポリシーアライメントの問題に対処するために,実用性や嗜好に基づくフィードバックを用いた新しい統合二段階最適化フレームワーク \textsf{parl} を提案する。 政策トラジェクトリによって生成されたデータに対するアライメント目標の依存性の正確な特徴が欠如しているため、政策アライメントを解決するための現在のアルゴリズム設計における大きなギャップを同定する。 この欠点は、現代アルゴリズムで観測される準最適性能に寄与する。 提案手法は,上位アライメント目標(後方設計)の分布を下位最適変数(設計報酬の最適方針)によって明示的にパラメータ化することにより,これらの懸念に対処した。 興味深いことに、最適化の観点から、我々の定式化は、上位の目的の確率性が下位の変数に依存するような、新しい確率的二段階問題をもたらす。 RLにおけるアライメント問題の解法における定式化の有効性を示すために, PARL問題を解くアルゴリズムを考案し, 次数$\mathcal{O}(1/T)$のサンプル複雑性境界を確立する。 提案する \textsf{parl} は,deepmind コントロールスイートとmeta world タスクの大規模環境におけるポリシーアライメントに対する大幅な改善(必要なサンプル数で最大 63 % まで)を示すことにより,rl におけるアライメント問題に対処することができる。

We present a novel unified bilevel optimization-based framework, \textsf{PARL}, formulated to address the recently highlighted critical issue of policy alignment in reinforcement learning using utility or preference-based feedback. We identify a major gap within current algorithmic designs for solving policy alignment due to a lack of precise characterization of the dependence of the alignment objective on the data generated by policy trajectories. This shortfall contributes to the sub-optimal performance observed in contemporary algorithms. Our framework addressed these concerns by explicitly parameterizing the distribution of the upper alignment objective (reward design) by the lower optimal variable (optimal policy for the designed reward). Interestingly, from an optimization perspective, our formulation leads to a new class of stochastic bilevel problems where the stochasticity at the upper objective depends upon the lower-level variable. To demonstrate the efficacy of our formulation in resolving alignment issues in RL, we devised an algorithm named \textsf{A-PARL} to solve PARL problem, establishing sample complexity bounds of order $\mathcal{O}(1/T)$. Our empirical results substantiate that the proposed \textsf{PARL} can address the alignment concerns in RL by showing significant improvements (up to 63\% in terms of required samples) for policy alignment in large-scale environments of the Deepmind control suite and Meta world tasks.
翻訳日:2023-10-13 05:01:31 公開日:2023-10-08
# 経路付きトポロジカルグラフニューラルネットワークの一般化

Generalizing Topological Graph Neural Networks with Paths ( http://arxiv.org/abs/2308.06838v3 )

ライセンス: Link先を確認
Quang Truong and Peter Chin(参考訳) グラフニューラルネットワーク(GNN)は様々な分野で大きな進歩を遂げているが、1-Weisfeiler-Lehmanテストとして知られる理論的な制約によって妨げられている。 高次のGNNの最近の進歩は、この境界を克服することができるが、一般的には、傾きやサイクルのような特定のグラフコンポーネントを中心にしている。 しかし、我々の調査は別のルートで行われます。 すべてのグラフに固有のパスに重点を置いています。 我々はより一般的な位相的視点を構築し、他の位相的領域に関する確立された理論を橋渡しすることができる。 興味深いことに、グラフのサブ構造を仮定せずに、この分野での我々のアプローチは、いくつかのベンチマークで最先端のパフォーマンスを達成している。

While Graph Neural Networks (GNNs) have made significant strides in diverse areas, they are hindered by a theoretical constraint known as the 1-Weisfeiler-Lehman test. Even though latest advancements in higher-order GNNs can overcome this boundary, they typically center around certain graph components like cliques or cycles. However, our investigation goes a different route. We put emphasis on paths, which are inherent in every graph. We are able to construct a more general topological perspective and form a bridge to certain established theories about other topological domains. Interestingly, without any assumptions on graph sub-structures, our approach surpasses earlier techniques in this field, achieving state-of-the-art performance on several benchmarks.
翻訳日:2023-10-13 04:48:17 公開日:2023-10-08
# STAEformer: 時空間適応型埋め込みによる交通予報用バニラ変圧器SOTA

STAEformer: Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting ( http://arxiv.org/abs/2308.10425v5 )

ライセンス: Link先を確認
Hangchen Liu, Zheng Dong, Renhe Jiang, Jiewen Deng, Jinliang Deng, Quanjun Chen and Xuan Song(参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な発展に伴い、正確な交通予測が重要な課題となっている。 重要なボトルネックは、複雑な時空間的トラフィックパターンを捉えることだ。 近年、この問題に対処するために複雑なアーキテクチャを持つ多数のニューラルネットワークが提案されている。 しかし、ネットワークアーキテクチャの進歩は性能向上に遭遇している。 本研究では,バニラ変圧器において優れた結果が得られる時空間適応埋め込みと呼ばれる新しい成分を提案する。 提案した時空間適応型エンベディングトランス (STAEformer) は, 5つの実世界の交通予測データセットに対して最先端の性能を実現する。 さらに,交通時系列の時空間関係と時系列情報を効果的に把握することにより,時空間適応埋め込みが交通予測において重要な役割を果たすことを示した。

With the rapid development of the Intelligent Transportation System (ITS), accurate traffic forecasting has emerged as a critical challenge. The key bottleneck lies in capturing the intricate spatio-temporal traffic patterns. In recent years, numerous neural networks with complicated architectures have been proposed to address this issue. However, the advancements in network architectures have encountered diminishing performance gains. In this study, we present a novel component called spatio-temporal adaptive embedding that can yield outstanding results with vanilla transformers. Our proposed Spatio-Temporal Adaptive Embedding transformer (STAEformer) achieves state-of-the-art performance on five real-world traffic forecasting datasets. Further experiments demonstrate that spatio-temporal adaptive embedding plays a crucial role in traffic forecasting by effectively capturing intrinsic spatio-temporal relations and chronological information in traffic time series.
翻訳日:2023-10-13 04:40:59 公開日:2023-10-08
# 画像復元のための粗粒拡散トランスの学習

Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration ( http://arxiv.org/abs/2308.08730v4 )

ライセンス: Link先を確認
Liyan Wang, Qinyu Yang, Cong Wang, Wei Wang, Jinshan Pan, Zhixun Su(参考訳) 近年,様々な視覚課題における拡散モデルの性能が顕著に向上している。 しかし, 得られた劣化観測からより鮮明な詳細で鮮明な画像を復元することを目的とした画像復元では, 不正確な雑音推定による予測結果の回復に失敗する可能性がある。 さらに、単純な制約ノイズは、複雑な劣化情報を効果的に学習できないため、モデルの容量を阻害する。 そこで本稿では,画像復元のための粗粒拡散トランス(c2f-dft)を提案する。 具体的には,このC2F-DFTには拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)が含まれている。 dfsaとdfnはそれぞれ長距離拡散依存性を捕捉し、階層拡散表現を学習し、より良い修復を容易にする。 粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。 修復の質をさらに高めるため,簡易かつ効果的な訓練手法を提案する。 まず, 粗トレーニング拡散モデルを用いて復元結果の生成を行い, 不正確な騒音推定によって生じる不満足な結果を改善するためのモデル最適化を行う。 拡張実験の結果,C2F-DFTは拡散型修復法IR-SDEを著しく上回り,画像のデライニングや画像の劣化,実画像のデノイングといった3ドルのタスクにおいてトランスフォーマーベースの最先端手法と比較して競争性能が向上した。 コードはhttps://github.com/wlydlut/C2F-DFTで入手できる。

Recent years have witnessed the remarkable performance of diffusion models in various vision tasks. However, for image restoration that aims to recover clear images with sharper details from given degraded observations, diffusion-based methods may fail to recover promising results due to inaccurate noise estimation. Moreover, simple constraining noises cannot effectively learn complex degradation information, which subsequently hinders the model capacity. To solve the above problems, we propose a coarse-to-fine diffusion Transformer (C2F-DFT) for image restoration. Specifically, our C2F-DFT contains diffusion self-attention (DFSA) and diffusion feed-forward network (DFN) within a new coarse-to-fine training scheme. The DFSA and DFN respectively capture the long-range diffusion dependencies and learn hierarchy diffusion representation to facilitate better restoration. In the coarse training stage, our C2F-DFT estimates noises and then generates the final clean image by a sampling algorithm. To further improve the restoration quality, we propose a simple yet effective fine training scheme. It first exploits the coarse-trained diffusion model with fixed steps to generate restoration results, which then would be constrained with corresponding ground-truth ones to optimize the models to remedy the unsatisfactory results affected by inaccurate noise estimation. Extensive experiments show that C2F-DFT significantly outperforms diffusion-based restoration method IR-SDE and achieves competitive performance compared with Transformer-based state-of-the-art methods on $3$ tasks, including image deraining, image deblurring, and real image denoising. Code is available at https://github.com/wlydlut/C2F-DFT.
翻訳日:2023-10-13 04:39:27 公開日:2023-10-08
# ディープラーニングのためのポイントクラウドデータ拡張の進歩: 調査

Advancements in Point Cloud Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2308.12113v2 )

ライセンス: Link先を確認
Qinfeng Zhu, Lei Fan, Ningxin Weng(参考訳) point cloudは、自動運転、マッピング、ナビゲーション、シーン再構築、医療画像など、幅広い分野のアプリケーションを持っている。 これらのアプリケーションにおける大きな可能性のため、ポイントクラウド処理はコンピュータビジョンの分野で大きな注目を集めている。 さまざまなポイントクラウド処理技術の中で、ディープラーニング(dl)は、検出、セグメンテーション、分類といったタスクの主流かつ効果的な方法の1つになっている。 特にトレーニングデータの量や多様性が限られている場合には、トレーニングdlモデルのオーバーフィットを低減し、モデル性能を向上させることが重要である。 さまざまなポイントクラウドデータ拡張手法がさまざまなポイントクラウド処理タスクで広く使用されているが、現在、これらの手法の体系的な調査やレビューは公開されていない。 そこで本稿では,これらの手法を調査し,分類の枠組みに分類する。 本稿では,拡張手法の総合評価と比較を通じて,その可能性と限界を明らかにし,今後の研究方向性を示唆する。 この研究は、研究者がポイントクラウドデータの強化の現状を総合的に理解し、より広いアプリケーションと開発を促進するのに役立つ。

Point cloud has a wide range of applications in areas such as autonomous driving, mapping, navigation, scene reconstruction, and medical imaging. Due to its great potentials in these applications, point cloud processing has gained great attention in the field of computer vision. Among various point cloud processing techniques, deep learning (DL) has become one of the mainstream and effective methods for tasks such as detection, segmentation and classification. To reduce overfitting during training DL models and improve model performance especially when the amount and/or diversity of training data are limited, augmentation is often crucial. Although various point cloud data augmentation methods have been widely used in different point cloud processing tasks, there are currently no published systematic surveys or reviews of these methods. Therefore, this article surveys and discusses these methods and categorizes them into a taxonomy framework. Through the comprehensive evaluation and comparison of the augmentation methods, this article identifies their potentials and limitations and suggests possible future research directions. This work helps researchers gain a holistic understanding of the current status of point cloud data augmentation and promotes its wider application and development.
翻訳日:2023-10-13 04:30:26 公開日:2023-10-08
# フラクソニウム量子ビット上の高忠実トランスモンカプラ活性化CCZゲート

High-fidelity transmon coupler activated CCZ gate on fluxonium qubits ( http://arxiv.org/abs/2308.15229v2 )

ライセンス: Link先を確認
Ilya A. Simakov, Grigoriy S. Mazhorin, Ilya N. Moskalenko, Seidali S. Seidov, Ilya S. Besedin(参考訳) トッフォリゲートは量子情報理論において特別な位置を占める。 複雑な量子アルゴリズムを効率的に実装するための道を開く。 超伝導量子ビットに基づく量子プロセッサの著しい進歩にもかかわらず、高忠実度3量子ビット演算の実現は依然として難しい問題である。 本稿では,トランスモン量子ビットを介して容量的に接続されたフラックスニウム上に高忠実なcczゲートを,カプラ上のマイクロ波パルスにより活性化する新しい方法を提案する。 アプローチの主な利点は、相対的速さ、校正の単純さ、望ましくない縦ZZ相互作用の顕著な抑制である。 ノイズレスモデルでは,95n長ゲートの99.99%以上の忠実度を実測回路パラメータで数値シミュレーションし,従来のデコヒーレンス率で約0.25%の誤差を推定する。

The Toffoli gate takes a special place in the quantum information theory. It opens up a path for efficient implementation of complex quantum algorithms. Despite tremendous progress of the quantum processors based on the superconducting qubits, realization of a high-fidelity three-qubit operation is still a challenging problem. Here, we propose a novel way to perform a high-fidelity CCZ gate on fluxoniums capacitively connected via a transmon qubit, activated by a microwave pulse on the coupler. The main advantages of the approach are relative quickness, simplicity of calibration and significant suppression of the unwanted longitudinal ZZ interaction. We provide numerical simulation of 95-ns long gate of higher than 99.99% fidelity with realistic circuit parameters in the noiseless model and estimate an error of about 0.25% under the conventional decoherence rates.
翻訳日:2023-10-13 04:22:31 公開日:2023-10-08
# 次世代貯留層計算 : 量子ダイナミクス予測のための効率的な量子アルゴリズム

Quantum Next Generation Reservoir Computing: An Efficient Quantum Algorithm for Forecasting Quantum Dynamics ( http://arxiv.org/abs/2308.14239v2 )

ライセンス: Link先を確認
Apimuk Sornsaeng, Ninnat Dangniam, Thiparat Chotibut(参考訳) 次世代リザーバコンピューティング(ng-rc)は、動的システムによって生成された時系列データの正確な予測を可能にする、モデルフリー機械学習の現代クラスである。 NG-RCは、積分可能系とカオス系の両方において、完全多体量子力学を正確に予測できることを示す。 これは、観測物の力学の予測に集中する従来の貯水池計算の応用とは対照的である。 また,中間状態に関する情報を抽出することなく,遠未来状態を正確に予測するために,先をスキップする手法を適用する。 しかし、古典的なNG-RCを多体量子力学予測に適用することは、サンプル入力データの大きなヒルベルト空間のために計算的に禁止される。 本研究では,ブロックエンコーディングによる量子計算速度アップを用いた多体量子力学予測のためのエンドツーエンド量子アルゴリズムを提案する。 本提案では,モデルベースアプローチによる帰納バイアスを回避し,量子力学をコヒーレントに予測する効率的なモデルフリー量子スキームを提案する。

Next Generation Reservoir Computing (NG-RC) is a modern class of model-free machine learning that enables an accurate forecasting of time series data generated by dynamical systems. We demonstrate that NG-RC can accurately predict full many-body quantum dynamics in both integrable and chaotic systems. This is in contrast to the conventional application of reservoir computing that concentrates on the prediction of the dynamics of observables. In addition, we apply a technique which we refer to as skipping ahead to predict far future states accurately without the need to extract information about the intermediate states. However, adopting a classical NG-RC for many-body quantum dynamics prediction is computationally prohibitive due to the large Hilbert space of sample input data. In this work, we propose an end-to-end quantum algorithm for many-body quantum dynamics forecasting with a quantum computational speedup via the block-encoding technique. This proposal presents an efficient model-free quantum scheme to forecast quantum dynamics coherently, bypassing inductive biases incurred in a model-based approach.
翻訳日:2023-10-13 04:21:14 公開日:2023-10-08
# 大規模言語モデルに対するゼロソース幻覚防止

Zero-Resource Hallucination Prevention for Large Language Models ( http://arxiv.org/abs/2309.02654v3 )

ライセンス: Link先を確認
Junyu Luo, Cao Xiao, Fenglong Ma(参考訳) 様々な領域における大規模言語モデル(LLM)の一般的な使用は、LLMが事実的不正確な情報を生成する事例である「幻覚」の問題に注意を向けている。 言語アシスタントにおける幻覚検出のための既存の技術は、複雑なファジィで特定の自由言語に基づく思考連鎖(cot)技術または解釈可能性の問題に苦しむパラメータベース手法に依存している。 また,幻覚を識別する手法は,その発生を防止できず,命令形式やモデルスタイルの影響により,一貫性に欠ける性能に支障をきたすことができた。 本稿では,入力命令に存在する概念に対するモデルの親密性を評価し,不慣れな概念の場合の応答生成を保留することに着目し,自己親密性と呼ばれる新しい自己評価手法を提案する。 このアプローチは、不慣れなトピックに反応する人間の能力をエミュレートし、幻覚を減らす。 4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。 以上の結果から, LLMアシスタントの幻覚予防戦略への大幅な転換, 信頼性, 適用性, 解釈性の向上が示唆された。

The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of "hallucination," which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as SELF-FAMILIARITY, which focuses on evaluating the model's familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate SELF-FAMILIARITY across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.
翻訳日:2023-10-13 04:11:01 公開日:2023-10-08
# スパイクニューラルネットワークを用いた連続学習のための神経経路の適応的再構成

Adaptive Reorganization of Neural Pathways for Continual Learning with Spiking Neural Networks ( http://arxiv.org/abs/2309.09550v2 )

ライセンス: Link先を確認
Bing Han, Feifei Zhao, Wenxuan Pan, Zhaoya Zhao, Xianqi Li, Qingqun Kong, Yi Zeng(参考訳) 人間の脳は、豊かで多様な神経経路を自己組織化し、数百の認知タスクを段階的にマスターすることができる。 しかし、深層人工およびスパイクニューラルネットワークのための既存の連続学習アルゴリズムのほとんどは、ネットワーク内の限られたリソースを適切に自動制御できないため、タスクの増加に伴ってエネルギー消費量が増加するとともに、パフォーマンスが低下する。 本稿では,SOR-SNNを単一かつ限られたスパイキングニューラルネットワーク(SOR-SNN)に再編成し,インクリメンタルなタスクを効率的に処理する,適応的な神経経路再構成を伴う脳インスピレーション型連続学習アルゴリズムを提案する。 提案モデルでは,CIFAR100やImageNetデータセットだけでなく,児童のような単純なタスクから複雑なタスクまで,さまざまな連続的な学習タスクにおいて,パフォーマンス,エネルギー消費,メモリ容量が一貫した優位性を示す。 特に、sor-snnモデルは、より複雑なタスクとより多くのタスクの学習に優れており、過去の学習した知識と現在のタスクの情報を統合することができ、古いタスクを容易にするための後方移動能力を示す。 一方,提案モデルでは,損傷を不可逆的に抑制する自己修復能力を示すとともに,保持ネットワークから新たな経路を自動割り当てすることで,記憶の回復を図ることができる。

The human brain can self-organize rich and diverse sparse neural pathways to incrementally master hundreds of cognitive tasks. However, most existing continual learning algorithms for deep artificial and spiking neural networks are unable to adequately auto-regulate the limited resources in the network, which leads to performance drop along with energy consumption rise as the increase of tasks. In this paper, we propose a brain-inspired continual learning algorithm with adaptive reorganization of neural pathways, which employs Self-Organizing Regulation networks to reorganize the single and limited Spiking Neural Network (SOR-SNN) into rich sparse neural pathways to efficiently cope with incremental tasks. The proposed model demonstrates consistent superiority in performance, energy consumption, and memory capacity on diverse continual learning tasks ranging from child-like simple to complex tasks, as well as on generalized CIFAR100 and ImageNet datasets. In particular, the SOR-SNN model excels at learning more complex tasks as well as more tasks, and is able to integrate the past learned knowledge with the information from the current task, showing the backward transfer ability to facilitate the old tasks. Meanwhile, the proposed model exhibits self-repairing ability to irreversible damage and for pruned networks, could automatically allocate new pathway from the retained network to recover memory for forgotten knowledge.
翻訳日:2023-10-13 03:50:40 公開日:2023-10-08
# Agents: 自律言語エージェントのためのオープンソースフレームワーク

Agents: An Open-source Framework for Autonomous Language Agents ( http://arxiv.org/abs/2309.07870v2 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Long Li, Jialong Wu, Tiannan Wang, Shi Qiu, Jintian Zhang, Jing Chen, Ruipu Wu, Shuai Wang, Shiding Zhu, Jiyu Chen, Wentao Zhang, Ningyu Zhang, Huajun Chen, Peng Cui, Mrinmaya Sachan(参考訳) 大規模言語モデル(LLM)の最近の進歩により、研究者や開発者は、さまざまなタスクを自動的に解決し、自然言語インターフェースを使用して環境、人間、その他のエージェントと対話できる自律型言語エージェントを構築することができる。 我々は、言語エージェントを人工知能への有望な方向とみなし、オープンソースライブラリであるAgentsを、これらの進歩をより広い非専門家の聴衆に開放することを目的としている。 エージェントは、計画、メモリ、ツールの使用、マルチエージェント通信、きめ細かいシンボル制御など、重要な機能をサポートするために慎重に設計されている。 エージェントは、非専門家が最先端の自律型言語エージェントを構築し、カスタマイズし、テストし、チューニングし、デプロイすることを可能にするため、ユーザフレンドリである。 この図書館は、モジュラーデザインが研究者にとって容易に拡張できるようにするため、研究に親しみやすい。 Agentsはhttps://github.com/aiwaves-cn/agentsで利用できる。

Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
翻訳日:2023-10-13 03:48:16 公開日:2023-10-08
# 未評価ソリューションによるSAEAの強化:費用対効果を考慮した関係モデルの一事例

Enhancing SAEAs with Unevaluated Solutions: A Case Study of Relation Model for Expensive Optimization ( http://arxiv.org/abs/2309.11994v2 )

ライセンス: Link先を確認
Hao Hao and Xiaoqun Zhang and Aimin Zhou(参考訳) サロゲート支援進化アルゴリズム(SAEA)は、高価な最適化問題の解決において重要な役割を果たす。 有能なモデル支援選択法の開発を通じて,SAEAの有効性向上に多大な努力が注がれている。 しかし、高品質なソリューションの生成は、選択の前提条件である。 SAEA内の各世代における限られた数の解を評価する基本的なパラダイムは、隣接する集団の分散を減らし、子孫の解の質に影響を及ぼす。 これはしばしば遭遇する問題であるが、広く注目されることはなかった。 本稿では,SAEAの効率を高めるために,未評価解を用いた枠組みを提案する。 surrogateモデルは、評価なしで新しいソリューションを直接生成するための高品質なソリューションを特定するために使用される。 そこで我々は, 最適解と未評価個体群の選択のための2つの調整付き関係モデルを導入した。 2つのテストスイートで総合的な実験分析を行い、選択フェーズにおける回帰モデルと分類モデルよりも関係モデルの優位性を示す。 さらに,高ポテンシャルのサロゲート選択不定値解はアルゴリズムの効率を著しく向上させることが示されている。

Surrogate-assisted evolutionary algorithms (SAEAs) hold significant importance in resolving expensive optimization problems~(EOPs). Extensive efforts have been devoted to improving the efficacy of SAEAs through the development of proficient model-assisted selection methods. However, generating high-quality solutions is a prerequisite for selection. The fundamental paradigm of evaluating a limited number of solutions in each generation within SAEAs reduces the variance of adjacent populations, thus impacting the quality of offspring solutions. This is a frequently encountered issue, yet it has not gained widespread attention. This paper presents a framework using unevaluated solutions to enhance the efficiency of SAEAs. The surrogate model is employed to identify high-quality solutions for direct generation of new solutions without evaluation. To ensure dependable selection, we have introduced two tailored relation models for the selection of the optimal solution and the unevaluated population. A comprehensive experimental analysis is performed on two test suites, which showcases the superiority of the relation model over regression and classification models in the selection phase. Furthermore, the surrogate-selected unevaluated solutions with high potential have been shown to significantly enhance the efficiency of the algorithm.
翻訳日:2023-10-13 03:40:53 公開日:2023-10-08
# 大規模パッケージ操作のための選択計画戦略

Pick Planning Strategies for Large-Scale Package Manipulation ( http://arxiv.org/abs/2309.13224v2 )

ライセンス: Link先を確認
Shuai Li, Azarakhsh Keipour, Kevin Jamieson, Nicolas Hudson, Sicong Zhao, Charles Swan and Kostas Bekris(参考訳) 倉庫業務の自動化は、物流のオーバーヘッドコストを低減し、最終的に消費者の最終的な価格を下げ、配達のスピードを高め、市場の変動に対する回復力を高める。 Amazon Roboticsのロボットインジェクション(Robin)は、1日に最大600万個までのパッケージを拾い、歌い、これまでに20億個以上のパッケージを操作している。 実生産データに基づいて訓練されたピック成功予測器を利用する,時間とともに発達した様々なヒューリスティック手法とその後継者について述べる。 著者の知識を最大限に活用するために,本研究は実運用システムにおける学習された選別品質推定手法の大規模展開である。

Automating warehouse operations can reduce logistics overhead costs, ultimately driving down the final price for consumers, increasing the speed of delivery, and enhancing the resiliency to market fluctuations. This extended abstract showcases a large-scale package manipulation from unstructured piles in Amazon Robotics' Robot Induction (Robin) fleet, which is used for picking and singulating up to 6 million packages per day and so far has manipulated over 2 billion packages. It describes the various heuristic methods developed over time and their successor, which utilizes a pick success predictor trained on real production data. To the best of the authors' knowledge, this work is the first large-scale deployment of learned pick quality estimation methods in a real production system.
翻訳日:2023-10-13 03:29:42 公開日:2023-10-08
# 深部視覚トランスフォーマー拡大のためのマスク画像残差学習

Masked Image Residual Learning for Scaling Deeper Vision Transformers ( http://arxiv.org/abs/2309.14136v2 )

ライセンス: Link先を確認
Guoxi Huang, Hongtao Fu, Adrian G. Bors(参考訳) より深度の高いビジョントランスフォーマー(ViT)は、より訓練が難しい。 プリトレーニングにマスク画像モデリング(mim)を使用する場合,vitの深層層では劣化問題が発生する。 より深い ViT のトレーニングを容易にするため,我々はMasked Image Residual Learning (MIRL) と呼ばれる自己教師型学習フレームワークを導入する。 マスク画像の残像を復元するための学習として,ViTの深い層に対する事前学習目標を再構築する。 我々は,深部 ViT を MIRL を用いて効果的に最適化し,深部 ViT の精度向上を図っている。 ViT-Base や ViT-Large と同じ計算量で 4.5$\times$ と 2$\times$ の ViT-S-54 と ViT-B-48 をインスタンス化する。 より深いViT-S-54は3$\times$ ViT-Largeより安く、ViT-Largeと同等のパフォーマンスを実現している。 ViT-B-48は、ImageNetで86.2%のトップ1の精度を達成した。 一方、MIRLで事前訓練された深いViTは、オブジェクト検出やセマンティックセグメンテーションといった下流タスクに優れた一般化能力を示す。 一方、MIRLは事前学習効率が高い。 事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。

Deeper Vision Transformers (ViTs) are more challenging to train. We expose a degradation problem in deeper layers of ViT when using masked image modeling (MIM) for pre-training. To ease the training of deeper ViTs, we introduce a self-supervised learning framework called Masked Image Residual Learning (MIRL), which significantly alleviates the degradation problem, making scaling ViT along depth a promising direction for performance upgrade. We reformulate the pre-training objective for deeper layers of ViT as learning to recover the residual of the masked image. We provide extensive empirical evidence showing that deeper ViTs can be effectively optimized using MIRL and easily gain accuracy from increased depth. With the same level of computational complexity as ViT-Base and ViT-Large, we instantiate 4.5$\times$ and 2$\times$ deeper ViTs, dubbed ViT-S-54 and ViT-B-48. The deeper ViT-S-54, costing 3$\times$ less than ViT-Large, achieves performance on par with ViT-Large. ViT-B-48 achieves 86.2% top-1 accuracy on ImageNet. On one hand, deeper ViTs pre-trained with MIRL exhibit excellent generalization capabilities on downstream tasks, such as object detection and semantic segmentation. On the other hand, MIRL demonstrates high pre-training efficiency. With less pre-training time, MIRL yields competitive performance compared to other approaches.
翻訳日:2023-10-13 03:20:49 公開日:2023-10-08
# IFT:ゴーストフリー高ダイナミックレンジイメージングのための画像融合変換器

IFT: Image Fusion Transformer for Ghost-free High Dynamic Range Imaging ( http://arxiv.org/abs/2309.15019v2 )

ライセンス: Link先を確認
Hailing Wang, Wei Li, Yuanyuan Xi, Jie Hu, Hanting Chen, Longyu Li and Yunhe Wang(参考訳) マルチフレームハイダイナミックレンジ(HDR)画像は、コンテンツ補完的ではあるが空間的に不整合な低ダイナミックレンジ(LDR)画像から、ゴーストフリーイメージを写実的に再構成することを目的としている。 既存のHDRアルゴリズムは、ダイナミックなシーンで大きな動きを持つLDRフレーム間の長距離依存関係をキャプチャできないため、ゴーストアーティファクトを生成する傾向にある。 この問題に対処するために、高速グローバルパッチ探索(FGPS)モジュールと、ゴーストフリーHDRイメージングのためのセルフクロスフュージョンモジュール(SCF)を提供するIFTと呼ばれる新しい画像融合変換器を提案する。 FGPSは、長距離依存モデリングのために参照フレームの各パッチに最も依存しているサポートフレームからパッチを検索し、SCFはFGPSが取得したパッチに対して、入力解像度に線形に複雑にフレーム内およびフレーム間フィーチャ融合を実行する。 フレーム間で同様のパッチを一致させることで、動的シーンで大きな動き範囲を持つオブジェクトをアライメントすることができ、効果的にアーティファクトの生成を軽減できる。 さらに、提案したFGPSとSCFは、効率的なプラグインモジュールとして、様々な深いHDRメソッドに統合することができる。 複数のベンチマーク実験により,本手法は定量的かつ定性的に,最先端の性能を達成できることが判明した。

Multi-frame high dynamic range (HDR) imaging aims to reconstruct ghost-free images with photo-realistic details from content-complementary but spatially misaligned low dynamic range (LDR) images. Existing HDR algorithms are prone to producing ghosting artifacts as their methods fail to capture long-range dependencies between LDR frames with large motion in dynamic scenes. To address this issue, we propose a novel image fusion transformer, referred to as IFT, which presents a fast global patch searching (FGPS) module followed by a self-cross fusion module (SCF) for ghost-free HDR imaging. The FGPS searches the patches from supporting frames that have the closest dependency to each patch of the reference frame for long-range dependency modeling, while the SCF conducts intra-frame and inter-frame feature fusion on the patches obtained by the FGPS with linear complexity to input resolution. By matching similar patches between frames, objects with large motion ranges in dynamic scenes can be aligned, which can effectively alleviate the generation of artifacts. In addition, the proposed FGPS and SCF can be integrated into various deep HDR methods as efficient plug-in modules. Extensive experiments on multiple benchmarks show that our method achieves state-of-the-art performance both quantitatively and qualitatively.
翻訳日:2023-10-13 03:07:20 公開日:2023-10-08
# 糖尿病2型糖尿病患者の早期診断のための教師付き学習モデル

Supervised Learning Models for Early Detection of Albuminuria Risk in Type-2 Diabetes Mellitus Patients ( http://arxiv.org/abs/2309.16742v3 )

ライセンス: Link先を確認
Arief Purnama Muharram, Dicky Levenus Tahapary, Yeni Dwi Lestari, Randy Sarayar and Valerie Josephine Dirjayanto(参考訳) 糖尿病、特にT2DMは依然として重要な健康問題である。 糖尿病に関する主要な懸念の1つは、その合併症の発生である。 慢性糖尿病の合併症の一つである糖尿病性腎症は腎臓に悪影響を与え、腎臓の損傷を引き起こす。 糖尿病性腎症の診断には様々な基準が考慮され、そのうちの1つは尿中のアルブミンが病理学的にかなりの量存在することである。 したがって、糖尿病患者におけるアルブミン尿症の早期予測は、タイムリーな予防措置の可能性を秘めている。 本研究の目的は,t2dm患者のアルブミン尿症発症リスクを予測するための教師付き学習モデルの開発である。 教師付き学習アルゴリズムには、Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, Multi-Layer Perceptron (MLP)が含まれる。 糖尿病合併症リスクファクター184項目からなる個人データセットを,アルゴリズムのトレーニングに使用した。 特徴として10の属性と目標として1の属性(アルブミン尿症)から構成されていた。 実験を行うと、MLPは他のアルゴリズムと比較して優れた性能を示した。 これはそれぞれ0.74と0.75の精度とf1スコアの値を達成し、T2DMの尿失調を予測するためのスクリーニングに適していた。 それでも、モデルの性能を高めるためにさらなる研究が保証されている。

Diabetes, especially T2DM, continues to be a significant health problem. One of the major concerns associated with diabetes is the development of its complications. Diabetic nephropathy, one of the chronic complication of diabetes, adversely affects the kidneys, leading to kidney damage. Diagnosing diabetic nephropathy involves considering various criteria, one of which is the presence of a pathologically significant quantity of albumin in urine, known as albuminuria. Thus, early prediction of albuminuria in diabetic patients holds the potential for timely preventive measures. This study aimed to develop a supervised learning model to predict the risk of developing albuminuria in T2DM patients. The selected supervised learning algorithms included Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, and Multi-Layer Perceptron (MLP). Our private dataset, comprising 184 entries of diabetes complications risk factors, was used to train the algorithms. It consisted of 10 attributes as features and 1 attribute as the target (albuminuria). Upon conducting the experiments, the MLP demonstrated superior performance compared to the other algorithms. It achieved accuracy and f1-score values as high as 0.74 and 0.75, respectively, making it suitable for screening purposes in predicting albuminuria in T2DM. Nonetheless, further studies are warranted to enhance the model's performance.
翻訳日:2023-10-13 03:00:50 公開日:2023-10-08
# d$^3$fields: ゼロショット汎用ロボット操作のための動的3次元ディスクリプタフィールド

D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Robotic Manipulation ( http://arxiv.org/abs/2309.16118v2 )

ライセンス: Link先を確認
Yixuan Wang, Zhuoran Li, Mingtong Zhang, Katherine Driggs-Campbell, Jiajun Wu, Li Fei-Fei, Yunzhu Li(参考訳) シーン表現はロボット操作システムにおいて重要な設計選択である。 理想的な表現は、多様な操作タスクの要求を満たすために、3D、ダイナミック、セマンティックであるべきです。 しかし、以前の作品は同時に3つの性質を欠いていることが多い。 本研究では,d$^3$fieldsdynamic 3dディスクリプタフィールドを導入する。 これらのフィールドは基盤となる3d環境のダイナミクスをキャプチャし、セマンティック機能とインスタンスマスクの両方をエンコードする。 具体的には,ワークスペース内の任意の3次元点を多視点2次元視覚観測に投影し,基礎モデルから得られる特徴を補間する。 融合ディスクリプタフィールドは、さまざまなコンテキスト、スタイル、インスタンスを持つ2Dイメージを使用してフレキシブルな目標仕様を可能にする。 これらの記述子フィールドの有効性を評価するため、ゼロショット方式で幅広いロボット操作タスクに我々の表現を適用した。 実世界のシナリオとシミュレーションの両方において、D$^3$Fieldsは一般化可能であり、ゼロショットロボット操作タスクに有効であることを示す。 Dense Object NetsやDINOのような最先端の高密度記述子と比較すると、D$3$Fieldsはより優れた一般化能力と操作精度を示す。

Scene representation has been a crucial design choice in robotic manipulation systems. An ideal representation should be 3D, dynamic, and semantic to meet the demands of diverse manipulation tasks. However, previous works often lack all three properties simultaneously. In this work, we introduce D$^3$Fields - dynamic 3D descriptor fields. These fields capture the dynamics of the underlying 3D environment and encode both semantic features and instance masks. Specifically, we project arbitrary 3D points in the workspace onto multi-view 2D visual observations and interpolate features derived from foundational models. The resulting fused descriptor fields allow for flexible goal specifications using 2D images with varied contexts, styles, and instances. To evaluate the effectiveness of these descriptor fields, we apply our representation to a wide range of robotic manipulation tasks in a zero-shot manner. Through extensive evaluation in both real-world scenarios and simulations, we demonstrate that D$^3$Fields are both generalizable and effective for zero-shot robotic manipulation tasks. In quantitative comparisons with state-of-the-art dense descriptors, such as Dense Object Nets and DINO, D$^3$Fields exhibit significantly better generalization abilities and manipulation accuracy.
翻訳日:2023-10-13 02:59:38 公開日:2023-10-08
# 画像テキストマルチモーダルモデルに関する調査

A Survey on Image-text Multimodal Models ( http://arxiv.org/abs/2309.15857v2 )

ライセンス: Link先を確認
Ruifeng Guo, Jingxuan Wei, Linzhuang Sun, Bihui Yu, Guiyong Chang, Dawei Liu, Sibo Zhang, Zhengbing Yao, Mingjun Xu, Liping Bu(参考訳) 人工知能の進化する状況の中で、視覚情報とテキスト情報の収束は重要なフロンティアとして浮上し、画像テキストのマルチモーダルモデルの出現につながっている。 本稿では,画像テキストマルチモーダルモデルの進化と現状を概観し,その応用価値,課題,潜在的研究軌道について考察する。 はじめに、我々はこれらのモデルの基本的な概念と開発マイルストーンを再検討し、導入時期とそれに続く規律への影響に基づいて、それらの進化を3つの異なる段階に区分する新しい分類を導入する。 さらに,学習環境における課題の意義と頻度に基づいて,画像テキストマルチモーダルモデルに関連するタスクを5つの主要なタイプに分類し,各カテゴリにおける最近の進歩と重要な技術を明らかにする。 これらのモデルの顕著な成果にもかかわらず、多くの課題と問題が続いている。 本稿では,画像テキスト・マルチモーダルモデルの本質的課題と限界を考察し,今後の研究方向性を探究する。 本研究の目的は,画像テキストマルチモーダルモデルの現在の研究展望を徹底的に概観し,今後の学術的取り組みへの貴重な参考となることにある。 https://github.com/i2vec/a-survey-on-image-text-multimodal-models}{https://github.com/i2vec/a-survey-on-image-text-multimodal-models} を参照。

Amidst the evolving landscape of artificial intelligence, the convergence of visual and textual information has surfaced as a crucial frontier, leading to the advent of image-text multimodal models. This paper provides a comprehensive review of the evolution and current state of image-text multimodal models, exploring their application value, challenges, and potential research trajectories. Initially, we revisit the basic concepts and developmental milestones of these models, introducing a novel classification that segments their evolution into three distinct phases, based on their time of introduction and subsequent impact on the discipline. Furthermore, based on the tasks' significance and prevalence in the academic landscape, we propose a categorization of the tasks associated with image-text multimodal models into five major types, elucidating the recent progress and key technologies within each category. Despite the remarkable accomplishments of these models, numerous challenges and issues persist. This paper delves into the inherent challenges and limitations of image-text multimodal models, fostering the exploration of prospective research directions. Our objective is to offer an exhaustive overview of the present research landscape of image-text multimodal models and to serve as a valuable reference for future scholarly endeavors. We extend an invitation to the broader community to collaborate in enhancing the image-text multimodal model community, accessible at: \href{https://github.com/i2vec/A-survey-on-image-text-multimodal-models}{https://github.com/i2vec/A-survey-on-image-text-multimodal-models}.
翻訳日:2023-10-13 02:59:17 公開日:2023-10-08
# NLPBench: NLP問題を解決するための大規模言語モデルの評価

NLPBench: Evaluating Large Language Models on Solving NLP Problems ( http://arxiv.org/abs/2309.15630v3 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Lechao Cheng, Pengyuan Zhou, Tianyi Zhou, Irene Li(参考訳) 近年の大規模言語モデル(LLM)の発展により,自然言語処理(NLP)の能力向上が期待されている。 これらの成功にもかかわらず、LPMのNLP問題解決能力に関する多くの研究が続いている。 この領域のギャップを埋めるために,イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 NLPBenchは、複数のサブクエストが同じ公開情報を共有し、複数の選択、短い答え、数学を含む多様な質問タイプを共有する、コンテキストを持った質問を含んでいる。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMを主軸として, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略を取り入れた評価を行った。 本研究は, LLAMA-2 (13b) などの小型モデルにおいて, 先進的なプロンプト戦略の有効性が矛盾し, LLM性能を損なう可能性があることを示す。 さらに,LLMの科学的問題解決技術に特有の欠点が指摘され,論理的分解や推論の弱点が顕著に影響した。

Recent developments in large language models (LLMs) have shown promise in enhancing the capabilities of natural language processing (NLP). Despite these successes, there remains a dearth of research dedicated to the NLP problem-solving abilities of LLMs. To fill the gap in this area, we present a unique benchmarking dataset, NLPBench, comprising 378 college-level NLP questions spanning various NLP topics sourced from Yale University's prior final exams. NLPBench includes questions with context, in which multiple sub-questions share the same public information, and diverse question types, including multiple choice, short answer, and math. Our evaluation, centered on LLMs such as GPT-3.5/4, PaLM-2, and LLAMA-2, incorporates advanced prompting strategies like the chain-of-thought (CoT) and tree-of-thought (ToT). Our study reveals that the effectiveness of the advanced prompting strategies can be inconsistent, occasionally damaging LLM performance, especially in smaller models like the LLAMA-2 (13b). Furthermore, our manual assessment illuminated specific shortcomings in LLMs' scientific problem-solving skills, with weaknesses in logical decomposition and reasoning notably affecting results.
翻訳日:2023-10-13 02:57:53 公開日:2023-10-08
# プロンプトベースのテスト時間実画像デハジング:新しいパイプライン

Prompt-based test-time real image dehazing: a novel pipeline ( http://arxiv.org/abs/2309.17389v2 )

ライセンス: Link先を確認
Zixuan Chen, Zewei He, Ziqian Lu, Zhe-Ming Lu(参考訳) 既存の手法は、よく設計されたトレーニングスキーム(例えば、サイクルGAN、事前損失)を探索することで、現実のハジー画像におけるモデルの一般化能力を向上しようとする。 しかし、そのほとんどは満足な結果を得るために非常に複雑な訓練手順が必要である。 そこで本研究では,提案手法を用いたプロンプトベーステストタイムデハジング(pttd)と呼ばれる全く新しいテストパイプラインを提案する。 PTTDは、合成データに基づいて訓練された復調モデルを用いて、符号化機能の統計(平均偏差と標準偏差)を微調整することにより、領域ギャップを狭め、実画像の復調性能を高めることができることを実験的に見出した。 そこで我々はまず,平均および標準偏差に対する適切な統計的摂動の源である視覚的プロンプトを生成するために,プロンプト生成モジュール(PGM)を適用した。 そして,既存のデハージングモデルに特徴適応モジュール(FAM)を用いて,生成したプロンプトのガイダンスを用いて,元の統計量を調整する。 なお、PTTDはモデル非依存であり、合成ヘイズクリーンペアで訓練された様々な最先端の脱ハージングモデルを備えることができる。 PTTDは現実のシナリオにおける最先端の脱ハージング手法に対して優れた性能を達成可能であることを示す。 PTTDのソースコードはhttps://github.com/cecret3350/PTTD-Dehazing.comで公開されます。

Existing methods attempt to improve models' generalization ability on real-world hazy images by exploring well-designed training schemes (e.g., cycleGAN, prior loss). However, most of them need very complicated training procedures to achieve satisfactory results. In this work, we present a totally novel testing pipeline called Prompt-based Test-Time Dehazing (PTTD) to help generate visually pleasing results of real-captured hazy images during the inference phase. We experimentally find that given a dehazing model trained on synthetic data, by fine-tuning the statistics (i.e., mean and standard deviation) of encoding features, PTTD is able to narrow the domain gap, boosting the performance of real image dehazing. Accordingly, we first apply a prompt generation module (PGM) to generate a visual prompt, which is the source of appropriate statistical perturbations for mean and standard deviation. And then, we employ the feature adaptation module (FAM) into the existing dehazing models for adjusting the original statistics with the guidance of the generated prompt. Note that, PTTD is model-agnostic and can be equipped with various state-of-the-art dehazing models trained on synthetic hazy-clean pairs. Extensive experimental results demonstrate that our PTTD is flexible meanwhile achieves superior performance against state-of-the-art dehazing methods in real-world scenarios. The source code of our PTTD will be made available at https://github.com/cecret3350/PTTD-Dehazing.
翻訳日:2023-10-13 02:49:01 公開日:2023-10-08
# フーリエニューラル演算子の多解能動的学習

Multi-Resolution Active Learning of Fourier Neural Operators ( http://arxiv.org/abs/2309.16971v3 )

ライセンス: Link先を確認
Shibo Li, Xin Yu, Wei Xing, Mike Kirby, Akil Narayan, Shandian Zhe(参考訳) Fourier Neural Operator (FNO) は、多くのタスクで最先端のパフォーマンスを達成するだけでなく、トレーニングや予測において非常に効率的である、人気のある演算子学習フレームワークである。 しかし、fnoのトレーニングデータの収集は、しばしば高価な物理シミュレーションを必要とするため、実際にはコストのかかるボトルネックである。 この問題を解決するために,FNO(MRA-FNO)の多解能動学習(MRA-FNO)を提案する。 具体的には,確率的マルチレゾリューションfnoを提案し,アンサンブルモンテカルロを用いて効果的な後進推定アルゴリズムを開発した。 アクティブラーニングを行うには, 活用コスト比を最大化し, それぞれのステップで新しい例と解答を得る。 モーメントマッチングと行列決定式補題を用いて,効率的な計算を可能にする。 さらに,早期に高分解能クエリを過大にペナルティ化するのを避けるためのコストアニーリングフレームワークを開発した。 過度なペナルティ化は、解像度の差が重要で、低解像度のクエリや劣ったパフォーマンスでしばしば立ち往生するアクティブラーニングを実現する場合、深刻である。 本手法はこの問題を克服し,汎用多要素能動学習および最適化問題に適用する。 ベンチマーク演算子学習タスクにおいて,本手法の利点を示した。

Fourier Neural Operator (FNO) is a popular operator learning framework, which not only achieves the state-of-the-art performance in many tasks, but also is highly efficient in training and prediction. However, collecting training data for the FNO is a costly bottleneck in practice, because it often demands expensive physical simulations. To overcome this problem, we propose Multi-Resolution Active learning of FNO (MRA-FNO), which can dynamically select the input functions and resolutions to lower the data cost as much as possible while optimizing the learning efficiency. Specifically, we propose a probabilistic multi-resolution FNO and use ensemble Monte-Carlo to develop an effective posterior inference algorithm. To conduct active learning, we maximize a utility-cost ratio as the acquisition function to acquire new examples and resolutions at each step. We use moment matching and the matrix determinant lemma to enable tractable, efficient utility computation. Furthermore, we develop a cost annealing framework to avoid over-penalizing high-resolution queries at the early stage. The over-penalization is severe when the cost difference is significant between the resolutions, which renders active learning often stuck at low-resolution queries and inferior performance. Our method overcomes this problem and applies to general multi-fidelity active learning and optimization problems. We have shown the advantage of our method in several benchmark operator learning tasks.
翻訳日:2023-10-13 02:47:09 公開日:2023-10-08
# xvo:クロスモーダル自己学習による汎用視覚オドメトリ

XVO: Generalized Visual Odometry via Cross-Modal Self-Training ( http://arxiv.org/abs/2309.16772v3 )

ライセンス: Link先を確認
Lei Lai and Zhongkai Shangguan and Jimuyang Zhang and Eshed Ohn-Bar(参考訳) XVOは,多種多様なデータセットや設定にまたがる堅牢なオフザセルフ操作を備えた汎用モノクロビジュアルオドメトリー(VO)モデルを訓練するための,半教師付き学習手法である。 単一のデータセット内で既知のキャリブレーションを研究する標準的なモノクロVOアプローチとは対照的に、XVOは視覚シーンのセマンティクスから実際のスケールでの相対的なポーズを、既知のカメラパラメータに頼ることなく、効率的に学習する。 我々は,youtubeで利用可能な無拘束で不均質なダッシュカメラビデオからの自己学習により,モーション推定モデルを最適化する。 私たちの重要な貢献は2つです。 まず,汎用直接VO回帰ネットワーク学習における半教師あり学習の利点を実証的に示す。 次に,voタスクの汎用表現を容易にするために,セグメンテーション,フロー,深さ,音響補助予測タスクを含むマルチモーダル監督を行う。 具体的には、ノイズの多い擬似ラベルを緩和しつつ、半教師付き学習プロセスを大幅に強化する音声予測タスクを、特に高ダイナミックで領域外のビデオデータにおいて発見する。 提案する教師ネットワークは,マルチフレーム最適化やカメラパラメータの知識がなくても,kittiベンチマークで最先端のパフォーマンスを実現する。 提案された半教師付きステップと組み合わせて、XVOはKITTI、nuScenes、Argoverseの様々な条件を微調整することなく、市販の知識伝達を実証する。

We propose XVO, a semi-supervised learning method for training generalized monocular Visual Odometry (VO) models with robust off-the-self operation across diverse datasets and settings. In contrast to standard monocular VO approaches which often study a known calibration within a single dataset, XVO efficiently learns to recover relative pose with real-world scale from visual scene semantics, i.e., without relying on any known camera parameters. We optimize the motion estimation model via self-training from large amounts of unconstrained and heterogeneous dash camera videos available on YouTube. Our key contribution is twofold. First, we empirically demonstrate the benefits of semi-supervised training for learning a general-purpose direct VO regression network. Second, we demonstrate multi-modal supervision, including segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate generalized representations for the VO task. Specifically, we find audio prediction task to significantly enhance the semi-supervised learning process while alleviating noisy pseudo-labels, particularly in highly dynamic and out-of-domain video data. Our proposed teacher network achieves state-of-the-art performance on the commonly used KITTI benchmark despite no multi-frame optimization or knowledge of camera parameters. Combined with the proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge transfer across diverse conditions on KITTI, nuScenes, and Argoverse without fine-tuning.
翻訳日:2023-10-13 02:45:39 公開日:2023-10-08
# RelBERT: 言語モデルとの関係を埋め込む

RelBERT: Embedding Relations with Language Models ( http://arxiv.org/abs/2310.00299v2 )

ライセンス: Link先を確認
Asahi Ushio, Jose Camacho-Collados, Steven Schockaert(参考訳) 多くのアプリケーションは、異なる概念とエンティティがどのように関連しているかに関する背景知識にアクセスする必要がある。 知識グラフ(KG)とLarge Language Models(LLM)はこのニーズにある程度対処できるが、KGは必然的に不完全であり、その関係スキーマはしばしば粗い粒度であり、LLMは非効率で制御が難しい。 代替として,比較的小さな言語モデルから関係埋め込みを抽出することを提案する。 特に,RoBERTaのようなマスキング言語モデルは,少量のトレーニングデータのみを用いて,この目的のために簡単に微調整できることを示す。 結果として得られたモデルはRelBERTと呼ばれ、驚くほど微細な方法でリレーショナル類似性をキャプチャし、アナログベンチマークで新しい最先端を設定できます。 重要なことは、RelBERTはトレーニング中にモデルが見た以上の関係をモデル化することができる。 例えば、概念間の語彙関係のみを訓練したモデルを用いた名前付きエンティティ間の関係について、強い結果が得られ、RelBERTがそのような例では訓練されていないにもかかわらず、形態的類似を認識できることを示した。 全体として、RelBERTは、最近のGPTベースモデルやオープンソースモデルなど、数桁の規模を持つ言語モデルにより、戦略を著しく上回ります。

Many applications need access to background knowledge about how different concepts and entities are related. Although Knowledge Graphs (KG) and Large Language Models (LLM) can address this need to some extent, KGs are inevitably incomplete and their relational schema is often too coarse-grained, while LLMs are inefficient and difficult to control. As an alternative, we propose to extract relation embeddings from relatively small language models. In particular, we show that masked language models such as RoBERTa can be straightforwardly fine-tuned for this purpose, using only a small amount of training data. The resulting model, which we call RelBERT, captures relational similarity in a surprisingly fine-grained way, allowing us to set a new state-of-the-art in analogy benchmarks. Crucially, RelBERT is capable of modelling relations that go well beyond what the model has seen during training. For instance, we obtained strong results on relations between named entities with a model that was only trained on lexical relations between concepts, and we observed that RelBERT can recognise morphological analogies despite not being trained on such examples. Overall, we find that RelBERT significantly outperforms strategies based on prompting language models that are several orders of magnitude larger, including recent GPT-based models and open source models.
翻訳日:2023-10-13 02:39:40 公開日:2023-10-08
# ファウショット学習におけるメタ学習モデルにおける神経崩壊の役割について

On the Role of Neural Collapse in Meta Learning Models for Few-shot Learning ( http://arxiv.org/abs/2310.00451v2 )

ライセンス: Link先を確認
Saaketh Medepalli and Naren Doraiswamy(参考訳) 数少ない学習のためのメタ学習フレームワークは、新しいスキルを学習したり、いくつかのトレーニング例で新しい環境に素早く適応できるモデルを学ぶことを目的としている。 このことが、少数のラベル付きサンプルを持つ新しいクラスに対する開発モデルの一般化につながった。 しかし、これらのネットワークはブラックボックスモデルと見なされ、異なる学習シナリオで学習される表現を理解することは重要である。 神経崩壊(neural collapse) (\mathcal{nc}$)は、ネットワークの損失ゼロに向けたユニークな特性を示す、最近発見された現象である。 入力特徴は各クラス手段に崩壊し、クラス手段は、クラス手段が最大距離で直線的に分離可能な簡易等角的タイトフレーム(ETF)を形成し、その分類器は、単純な近接した隣接分類器として機能する。 これらの現象は、単純な分類ネットワークで観察されているが、この研究は、少数の学習のためのメタ学習フレームワークにおける神経崩壊の性質を探求し理解する最初の方法である。 我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。 学習した特徴は、特にモデルのサイズが大きくなるにつれて神経崩壊の傾向を持つが、$\mathcal{NC}$プロパティによって測定されるような完全な崩壊を示すとは限らない。

Meta-learning frameworks for few-shot learning aims to learn models that can learn new skills or adapt to new environments rapidly with a few training examples. This has led to the generalizability of the developed model towards new classes with just a few labelled samples. However these networks are seen as black-box models and understanding the representations learnt under different learning scenarios is crucial. Neural collapse ($\mathcal{NC}$) is a recently discovered phenomenon which showcases unique properties at the network proceeds towards zero loss. The input features collapse to their respective class means, the class means form a Simplex equiangular tight frame (ETF) where the class means are maximally distant and linearly separable, and the classifier acts as a simple nearest neighbor classifier. While these phenomena have been observed in simple classification networks, this study is the first to explore and understand the properties of neural collapse in meta learning frameworks for few-shot learning. We perform studies on the Omniglot dataset in the few-shot setting and study the neural collapse phenomenon. We observe that the learnt features indeed have the trend of neural collapse, especially as model size grows, but to do not necessarily showcase the complete collapse as measured by the $\mathcal{NC}$ properties.
翻訳日:2023-10-13 02:26:39 公開日:2023-10-08
# 未来へ:大規模言語モデルによる説明可能な時間推論を目指して

Back to the Future: Towards Explainable Temporal Reasoning with Large Language Models ( http://arxiv.org/abs/2310.01074v2 )

ライセンス: Link先を確認
Chenhan Yuan, Qianqian Xie, Jimin Huang and Sophia Ananiadou(参考訳) 時間的推論は重要なNLPタスクであり、テキストデータ内の時間に敏感なコンテキストの微妙な理解を提供する。 LLMの最近の進歩は、時間的推論におけるその可能性を示しているが、主に時間的表現や時間的関係抽出といったタスクに焦点を当てている。 これらのタスクは、主に直接的および過去の時間的手がかりを抽出し、単純な推論プロセスに従事するように設計されている。 イベントの予測や将来のタイムスタンプの予測に多段階の時間的推論を必要とするイベント予測のような複雑な推論タスクを考える場合、大きなギャップは残る。 既存の方法のもう一つの注目すべき制限は、説明可能性を妨げる推論過程の図示ができないことである。 本稿では,複数の事象にまたがる複数の推論を必要とする文脈に基づいて,将来のタイムスタンプにおける事象の発生を予測するための,説明可能な時間的推論の最初のタスクを紹介し,その予測の明確な説明を提供する。 我々のタスクは、LLMの複雑な時間的推論能力、将来の事象予測能力、AIアプリケーションにおける説明可能性の重要な属性の両方を包括的に評価する。 この課題を支援するために,時間的知識グラフデータセットとその時間的推論経路から導出した26kの説明可能な時間的推論(ExpTime)を,新しい知識グラフ命令型世代戦略を用いて提案する。 このデータセットに基づいて,LlaMA2の基礎をベースとした最初のオープンソースLLMシリーズであるTimeLlaMAを提案する。 本手法は,時間予測と説明の最先端性能を実現するため,本手法の性能と様々なllmを比較した。

Temporal reasoning is a crucial NLP task, providing a nuanced understanding of time-sensitive contexts within textual data. Although recent advancements in LLMs have demonstrated their potential in temporal reasoning, the predominant focus has been on tasks such as temporal expression and temporal relation extraction. These tasks are primarily designed for the extraction of direct and past temporal cues and to engage in simple reasoning processes. A significant gap remains when considering complex reasoning tasks such as event forecasting, which requires multi-step temporal reasoning on events and prediction on the future timestamp. Another notable limitation of existing methods is their incapability to provide an illustration of their reasoning process, hindering explainability. In this paper, we introduce the first task of explainable temporal reasoning, to predict an event's occurrence at a future timestamp based on context which requires multiple reasoning over multiple events, and subsequently provide a clear explanation for their prediction. Our task offers a comprehensive evaluation of both the LLMs' complex temporal reasoning ability, the future event prediction ability, and explainability-a critical attribute for AI applications. To support this task, we present the first multi-source instruction-tuning dataset of explainable temporal reasoning (ExpTime) with 26k derived from the temporal knowledge graph datasets and their temporal reasoning paths, using a novel knowledge-graph-instructed-generation strategy. Based on the dataset, we propose the first open-source LLM series TimeLlaMA based on the foundation LlaMA2, with the ability of instruction following for explainable temporal reasoning. We compare the performance of our method and a variety of LLMs, where our method achieves the state-of-the-art performance of temporal prediction and explanation.
翻訳日:2023-10-13 02:20:07 公開日:2023-10-08
# RA-DIT:検索拡張デュアルインストラクションチューニング

RA-DIT: Retrieval-Augmented Dual Instruction Tuning ( http://arxiv.org/abs/2310.01352v2 )

ライセンス: Link先を確認
Xi Victoria Lin, Xilun Chen, Mingda Chen, Weijia Shi, Maria Lomeli, Rich James, Pedro Rodriguez, Jacob Kahn, Gergely Szilvasy, Mike Lewis, Luke Zettlemoyer, Scott Yih(参考訳) Retrieval-augmented Language Model (RALMs)は、外部データストアから長いテールと最新の知識にアクセスすることでパフォーマンスを向上させるが、構築は困難である。 既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。 本稿では,LLMに検索機能を持たせることで第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning(RA-DIT)を紹介する。 提案手法は,(1)事前学習したLMを更新して,検索した情報をよりよく活用する方法,(2)検索者がより関連性の高い結果を返す方法,の2つのステップで動作する。 知識利用と文脈認識の両方を必要とするタスクを微調整することで、各ステージが大きなパフォーマンス向上をもたらし、両方を使用することでさらなる利益をもたらすことを示す。 我々の最良のモデルであるRA-DIT 65Bは、知識集約型のゼロショットと少数ショットの学習ベンチマークで最先端のパフォーマンスを達成し、0ショット設定では最大8.9%、平均5ショット設定では+1.4%という、既存のコンテキスト内RALMアプローチを著しく上回っている。

Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.
翻訳日:2023-10-13 02:05:36 公開日:2023-10-08
# ニューラルランゲージモデルを用いた臨床テキストからの薬物抽出と時間関係

Extraction of Medication and Temporal Relation from Clinical Text using Neural Language Models ( http://arxiv.org/abs/2310.02229v2 )

ライセンス: Link先を確認
Hangyu Tu and Lifeng Han and Goran Nenadic(参考訳) 電子カルテ(EMR)で表される臨床テキストは、豊富な医療情報を含み、疾患予測、パーソナライズド情報レコメンデーション、臨床決定支援、薬物パターンマイニングおよび測定に必須である。 薬物の言及と時間的情報の間の関係抽出は、臨床医が患者の治療歴をよりよく理解するのに役立つ。 薬物抽出および時間的関係分類における深層学習(DL)と大規模言語モデル(LLMs)の性能を評価するため,臨床領域名称認識(NER)のためのBiLSTM-CRFとCNN-BiLSTM、時間的関係抽出(RE)のためのBERT-CNNなどの先進的な学習構造を用いて,異なる単語埋め込み手法の探索に加えて,経験的調査を行った。 さらに,医薬品の構造的出力と時間的関係を生成するために,一連の後処理の役割も設計した。 以上の結果から,CNN-BiLSTMはi2b2-2009臨床NERの75.67,77.83,78.17でBiLSTM-CRFモデルにわずかに勝っていることがわかった。 BERT-CNNモデルはまた、i2b2-2012の課題から設定した時間的関係抽出テストでマクロAvgを用いてP/R/F1の64.48、67.17、65.03を適度に評価した。 MedTem の Code and Tools は \url{https://github.com/HECTA-UoM/MedTem} でホストされる。

Clinical texts, represented in electronic medical records (EMRs), contain rich medical information and are essential for disease prediction, personalised information recommendation, clinical decision support, and medication pattern mining and measurement. Relation extractions between medication mentions and temporal information can further help clinicians better understand the patients' treatment history. To evaluate the performances of deep learning (DL) and large language models (LLMs) in medication extraction and temporal relations classification, we carry out an empirical investigation of \textbf{MedTem} project using several advanced learning structures including BiLSTM-CRF and CNN-BiLSTM for a clinical domain named entity recognition (NER), and BERT-CNN for temporal relation extraction (RE), in addition to the exploration of different word embedding techniques. Furthermore, we also designed a set of post-processing roles to generate structured output on medications and the temporal relation. Our experiments show that CNN-BiLSTM slightly wins the BiLSTM-CRF model on the i2b2-2009 clinical NER task yielding 75.67, 77.83, and 78.17 for precision, recall, and F1 scores using Macro Average. BERT-CNN model also produced reasonable evaluation scores 64.48, 67.17, and 65.03 for P/R/F1 using Macro Avg on the temporal relation extraction test set from i2b2-2012 challenges. Code and Tools from MedTem will be hosted at \url{https://github.com/HECTA-UoM/MedTem}
翻訳日:2023-10-13 01:58:41 公開日:2023-10-08
# ネイティブアメリカン言語における自己教師あり音声表現の評価

Evaluating Self-Supervised Speech Representations for Indigenous American Languages ( http://arxiv.org/abs/2310.03639v2 )

ライセンス: Link先を確認
Chih-Chen Chen, William Chen, Rodolfo Zevallos, John E. Ortega(参考訳) 音声表現学習への自己スーパービジョンの適用は、大量のラベルなしデータへの拡張性のため、近年大きな関心を集めている。 しかし、事前学習と下流評価の両面での大きな進歩は、英語のみを考慮した単言語モデルに集中している。 他の言語を考えるモデルはほとんどなく、土着言語を考えるモデルも少なくない。 ASRU 2023 ML-SUPERB Challengeの新たな言語トラックへの投稿では、南アメリカの先住民であるケチュアのためのASRコーパスを提示する。 我々は、Kechua上の大規模なSSLモデルと、低リソースのASR上のGuaraniやBrbriといった6つのネイティブ言語の有効性をベンチマークした。 その結果,最先端sslモデルによる性能は驚くほど向上し,実データへの大規模モデルの一般化可能性も示された。

The application of self-supervision to speech representation learning has garnered significant interest in recent years, due to its scalability to large amounts of unlabeled data. However, much progress, both in terms of pre-training and downstream evaluation, has remained concentrated in monolingual models that only consider English. Few models consider other languages, and even fewer consider indigenous ones. In our submission to the New Language Track of the ASRU 2023 ML-SUPERB Challenge, we present an ASR corpus for Quechua, an indigenous South American Language. We benchmark the efficacy of large SSL models on Quechua, along with 6 other indigenous languages such as Guarani and Bribri, on low-resource ASR. Our results show surprisingly strong performance by state-of-the-art SSL models, showing the potential generalizability of large-scale models to real-world data.
翻訳日:2023-10-12 19:33:58 公開日:2023-10-08
# tempo:時系列予測のためのプロンプトベース生成事前学習トランス

TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting ( http://arxiv.org/abs/2310.04948v1 )

ライセンス: Link先を確認
Defu Cao, Furong Jia, Sercan O Arik, Tomas Pfister, Yixiang Zheng, Wen Ye, Yan Liu(参考訳) 過去10年間、ディープラーニングによる時系列モデリングが大幅に進歩している。 最先端の成果を得る一方で、ベストパフォーマンスなアーキテクチャはアプリケーションやドメインによって大きく異なります。 一方,自然言語処理では,生成型事前学習トランスフォーマ(gpt)は,様々なテキストデータセットに対して1つの汎用モデルをトレーニングすることで,印象的な性能を示している。 GPT型アーキテクチャが時系列に有効であるかどうかを探求し、本質的な動的属性をキャプチャし、精度を大幅に向上させる。 本稿では,時系列表現を効果的に学習できる新しいフレームワークであるtempoを提案する。 事前学習モデルにおける時系列課題の2つの本質的帰納バイアスの活用に焦点をあてた。 (i)傾向、季節、残留成分の複雑な相互作用の分解 (ii)非定常時系列における分布適応を容易にするために選択に基づくプロンプトを導入する。 TEMPOは、様々な領域のデータから現実世界の時間現象を動的にモデル化する機能を拡張する。 本実験では, TEMPO の高性能性能を実証し, 時系列ベンチマークデータセットの最先端手法よりも 20 %-60 % 向上した。 このパフォーマンス向上は、標準的な教師付き学習設定だけでなく、これまで見られなかったデータセットを含むシナリオでも観測される。 この魅力的な発見は、基礎的なモデル構築フレームワークを構成する \modelname の可能性を強調している。

The past decade has witnessed significant advances in time series modeling with deep learning. While achieving state-of-the-art results, the best-performing architectures vary highly across applications and domains. On the other hand, for natural language processing, Generative Pre-trained Transformer (GPT) has demonstrated impressive performance via training one general-purpose model across various textual datasets. It is intriguing to explore whether GPT-type architectures can be effective for time series, capturing the intrinsic dynamic attributes and leading to significant accuracy improvements. In this paper, we propose a novel framework, TEMPO, that can effectively learn time series representations. We focus on utilizing two essential inductive biases of the time series task for pre-trained models: (i) decomposition of the complex interaction between trend, seasonal and residual components; and (ii) introducing the selection-based prompts to facilitate distribution adaptation in non-stationary time series. TEMPO expands the capability for dynamically modeling real-world temporal phenomena from data within diverse domains. Our experiments demonstrate the superior performance of TEMPO, with 20\%-60\% improvement over state-of-the-art methods on a number of time series benchmark datasets. This performance gain is observed not only in standard supervised learning settings but also in scenarios involving previously unseen datasets. This compelling finding highlights \modelname's potential to constitute a foundational model building framework.
翻訳日:2023-10-12 14:17:35 公開日:2023-10-08
# 実世界の超解像とダウンスケーリングのための多対多マッピングの学習

Learning Many-to-Many Mapping for Unpaired Real-World Image Super-resolution and Downscaling ( http://arxiv.org/abs/2310.04964v1 )

ライセンス: Link先を確認
Wanjie Sun, Zhenzhong Chen(参考訳) 実世界の画像のための学習ベースの単一画像超解像(SISR)は、ペア化低分解能(LR)と高分解能(HR)の訓練画像が欠如しているため、アクティブな研究課題である。 既存の非教師付き実世界のSISR手法の多くは、まずHRから現実的なLR画像を合成し、次に教師付き方法で超解像度(SR)モデルを訓練することで、2段階のトレーニング戦略を採用している。 しかしながら、この戦略における画像劣化のトレーニングとsrモデルの分離は、ダウンスケーリングとその逆アップスケーリングプロセスに固有の相互依存性を無視している。 また、画像劣化の悪い性質は十分に考慮されていない。 本稿では,実世界のLR画像とHR画像の双方向多対多マッピングを教師なしで同時に学習するSDFlowと呼ばれるイメージダウンスケーリングとSRモデルを提案する。 SDFlowの主な考え方は、LRおよびHR画像のコンテンツ情報分布が共通潜伏空間で一致する潜伏空間における画像内容と劣化情報を分離することである。 容易にサンプリング可能な条件分布に、LR画像の劣化情報とHR画像の高周波情報とを取付ける。 実世界の画像SRデータセットによる実験結果から,SDFlowは定量的かつ質的に,多様な現実的なLRとSRの画像を生成可能であることが示唆された。

Learning based single image super-resolution (SISR) for real-world images has been an active research topic yet a challenging task, due to the lack of paired low-resolution (LR) and high-resolution (HR) training images. Most of the existing unsupervised real-world SISR methods adopt a two-stage training strategy by synthesizing realistic LR images from their HR counterparts first, then training the super-resolution (SR) models in a supervised manner. However, the training of image degradation and SR models in this strategy are separate, ignoring the inherent mutual dependency between downscaling and its inverse upscaling process. Additionally, the ill-posed nature of image degradation is not fully considered. In this paper, we propose an image downscaling and SR model dubbed as SDFlow, which simultaneously learns a bidirectional many-to-many mapping between real-world LR and HR images unsupervisedly. The main idea of SDFlow is to decouple image content and degradation information in the latent space, where content information distribution of LR and HR images is matched in a common latent space. Degradation information of the LR images and the high-frequency information of the HR images are fitted to an easy-to-sample conditional distribution. Experimental results on real-world image SR datasets indicate that SDFlow can generate diverse realistic LR and SR images both quantitatively and qualitatively.
翻訳日:2023-10-12 14:08:15 公開日:2023-10-08
# LLM4V: コンパイラ検証のためのLCM駆動テストスーツの開発

LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation ( http://arxiv.org/abs/2310.04963v1 )

ライセンス: Link先を確認
Christian Munley, Aaron Jarmusch and Sunita Chandrasekaran(参考訳) 大きな言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための新しく強力なツールであり、印象的なコード生成能力を示している。 本稿では,OpenAI GPT-4のようなオープンソースオプションやMeta AI Codellamaのようなオープンソースオプションなど,最先端のLLMのキャパビリティについて検討し,自動テストを生成して,これらのテストを使用してディレクティブベースのプログラミングパラダイムであるOpenACCのコンパイラ実装の検証と検証を行う。 提案手法では,コードテンプレートによる検索拡張生成(RAG),コードテンプレートによるRAGを用いた表現的プロンプト,ワンショット例によるRAG,ワンショット例によるRAGなど,さまざまなプロンプトエンジニアリング手法を探索する。 この論文は焦点をあてる (a)コード生成のための最新のLLMの機能を探る。 (b)プロンプト法及び微調整法の調査、及び c) llms生成試験の結果を分析する

Large language models (LLMs) are a new and powerful tool for a wide span of applications involving natural language and demonstrate impressive code generation abilities. In this paper, we explore the capabilitity of state-of-the-art LLMs, including closed-source options like OpenAI GPT-4 and open-source alternatives like Meta AI Codellama, to automatically generate tests and use these tests to validate and verify compiler implementations of a directive-based programming paradigm, OpenACC. Our approach entails exploring various prompt engineering techniques including a code template, retrieval-augmented generation (RAG) with code template, expressive prompt using RAG with code template, one-shot example, and RAG with one-shot example. This paper focusses on (a) exploring the capabilities of the latest LLMs for code generation, (b) investigating prompt and fine tuning methods, and (c) analyzing the outcome of LLMs generated tests
翻訳日:2023-10-12 14:07:52 公開日:2023-10-08
# プレトレーニングにおける中国ピニーンの活用

Exploring the Usage of Chinese Pinyin in Pretraining ( http://arxiv.org/abs/2310.04960v1 )

ライセンス: Link先を確認
Baojun Wang, Kun Xu, Lifeng Shang(参考訳) アルファベットとは異なり、中国語の綴りと発音が異なる。 漢字もピン音も中国語理解において重要な役割を担っている。 中国語のNLPタスクでは、ほとんど文字や単語をモデル入力として採用し、ピンインの使い方を研究する研究はほとんどない。 しかし、Pinyinは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて必須である。 これらの誤りのほとんどは同一または類似の発音語によって引き起こされ、このタイプの誤りを略してSSP(同または類似の発音)エラーと呼ぶ。 そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。 プリトレーニングには文字とピンインを並列に使用する。 微妙な事前訓練タスクにより、文字とピニイン表現が融合し、SSPエラーに対するエラー耐性を高めることができる。 我々は、頑健な音韻拡張中国語モデルを作るための包括的な実験とアブレーションテストを行う。 構築した雑音付加データセットと公開誤り補正データセットの両方の実験結果から,我々のモデルはSOTAモデルよりも堅牢であることが示された。

Unlike alphabetic languages, Chinese spelling and pronunciation are different. Both characters and pinyin take an important role in Chinese language understanding. In Chinese NLP tasks, we almost adopt characters or words as model input, and few works study how to use pinyin. However, pinyin is essential in many scenarios, such as error correction and fault tolerance for ASR-introduced errors. Most of these errors are caused by the same or similar pronunciation words, and we refer to this type of error as SSP(the same or similar pronunciation) errors for short. In this work, we explore various ways of using pinyin in pretraining models and propose a new pretraining method called PmBERT. Our method uses characters and pinyin in parallel for pretraining. Through delicate pretraining tasks, the characters and pinyin representation are fused, which can enhance the error tolerance for SSP errors. We do comprehensive experiments and ablation tests to explore what makes a robust phonetic enhanced Chinese language model. The experimental results on both the constructed noise-added dataset and the public error-correction dataset demonstrate that our model is more robust compared to SOTA models.
翻訳日:2023-10-12 14:07:35 公開日:2023-10-08
# より優れたチェーン・オブ・サート・プロンプティング戦略に向けた調査

Towards Better Chain-of-Thought Prompting Strategies: A Survey ( http://arxiv.org/abs/2310.04959v1 )

ライセンス: Link先を確認
Zihan Yu, Liang He, Zhen Wu, Xinyu Dai, Jiajun Chen(参考訳) ステップワイドでコヒーレントな推論チェーンであるChain-of-Thought(CoT)は,大規模言語モデル(LLM)の促進戦略として使用すると,その印象的な強度を示す。 近年,CoTの促進効果が注目されている。 しかし,cotプロンプトの重要な要因に関する体系的な要約や,プロンプト活用のための包括的ガイドが不足している。 CoTプロンプトに関するより深い理解を得るために、我々は、CoTプロンプトの効果に影響を与える可能性のあるいくつかの要因について、体系的で包括的な分析を行い、これらの議論の下で異なるアプリケーションに適用する方法を紹介します。 さらに課題を分析し,CoTプロンプトの今後の方向性を提案する。 この調査は、関連する研究全般の参考になるかもしれない。

Chain-of-Thought (CoT), a step-wise and coherent reasoning chain, shows its impressive strength when used as a prompting strategy for large language models (LLM). Recent years, the prominent effect of CoT prompting has attracted emerging research. However, there still lacks of a systematic summary about key factors of CoT prompting and comprehensive guide for prompts utilizing. For a deeper understanding about CoT prompting, we survey on a wide range of current research, presenting a systematic and comprehensive analysis on several factors that may influence the effect of CoT prompting, and introduce how to better apply it in different applications under these discussions. We further analyze the challenges and propose some future directions about CoT prompting. This survey could provide an overall reference on related research.
翻訳日:2023-10-12 14:07:16 公開日:2023-10-08
# 説明可能な機械学習に向けて:無線受信処理におけるリザーバコンピューティングの有効性

Towards Explainable Machine Learning: The Effectiveness of Reservoir Computing in Wireless Receive Processing ( http://arxiv.org/abs/2310.04956v1 )

ライセンス: Link先を確認
Shashank Jere, Karim Said, Lizhong Zheng and Lingjia Liu(参考訳) ディープラーニングは、物理層を含む様々な無線通信アプリケーションで急速に採用されている。 チャネルの等化や処理/シンボル検出の受信といったタスクでは素晴らしいパフォーマンスを実現していますが、この優れたパフォーマンスを説明する上では、多くのことが望まれています。 本研究では,従来の手法や他の学習に基づく手法に比べて優れた性能を示す貯水池計算(rc)と呼ばれる一般的な学習ベース手法を適用し,チャネル等化の課題を検討する。 具体的には、エコー状態ネットワーク(ESN)をチャネル等化器として適用し、その動作の第一原理に基づく信号処理理解を提供する。 本研究では,無線チャネルの統計の形で利用可能なドメイン知識をESNモデルの重みに直接組み込む。 これは、伝統的に訓練されず、ランダムに初期化されるESNモデルの重み付けを最適化する道を開く。 最後に,シミュレーションにより最適化した初期化により受信処理/シンボル検出性能が向上することを示す。 これは、説明可能な機械学習(xml)への第一歩であり、利用可能なドメイン知識とともに活用できる実用的なモデル解釈可能性の割り当てであり、パフォーマンスの向上と検出信頼性の向上に寄与する。

Deep learning has seen a rapid adoption in a variety of wireless communications applications, including at the physical layer. While it has delivered impressive performance in tasks such as channel equalization and receive processing/symbol detection, it leaves much to be desired when it comes to explaining this superior performance. In this work, we investigate the specific task of channel equalization by applying a popular learning-based technique known as Reservoir Computing (RC), which has shown superior performance compared to conventional methods and other learning-based approaches. Specifically, we apply the echo state network (ESN) as a channel equalizer and provide a first principles-based signal processing understanding of its operation. With this groundwork, we incorporate the available domain knowledge in the form of the statistics of the wireless channel directly into the weights of the ESN model. This paves the way for optimized initialization of the ESN model weights, which are traditionally untrained and randomly initialized. Finally, we show the improvement in receive processing/symbol detection performance with this optimized initialization through simulations. This is a first step towards explainable machine learning (XML) and assigning practical model interpretability that can be utilized together with the available domain knowledge to improve performance and enhance detection reliability.
翻訳日:2023-10-12 14:07:02 公開日:2023-10-08
# ニューラルネットワークからの属性依存バイアス除去に関する情報理論的境界

Information-Theoretic Bounds on The Removal of Attribute-Specific Bias From Neural Networks ( http://arxiv.org/abs/2310.04955v1 )

ライセンス: Link先を確認
Jiazhi Li, Mahyar Khayatkhoei, Jiageng Zhu, Hanchen Xie, Mohamed E. Hussein, Wael AbdAlmageed(参考訳) ニューラルネットワークの保証は、公正で信頼できるAIを進める上で、予測のために保護された属性(例えば、人種、性別、年齢)に依存していない。 ニューラルネットワークにおける属性バイアスを取り除くためのいくつかの有望な方法が提案されているが、その制限は未検討のままである。 本研究では,強いバイアスが存在する場合に,属性バイアス除去法の重要な限界を明らかにする。 具体的には, 属性バイアス除去法の性能を, バイアス強度の観点から, 一般の非空的情報理論上界を導出する。 我々は, 合成, 画像, および国勢調査のデータセットに関する広範な実験を行い, 理論的な境界とその実際の結果を検証する。 従来の属性バイアス除去法は,データセットの固有バイアスが比較的弱い場合にのみ有効であり,強い属性バイアスが発生する可能性のある小さなデータセットにおけるこれらの手法の使用に注意し,この制限を克服できる手法の必要性を主張する。

Ensuring a neural network is not relying on protected attributes (e.g., race, sex, age) for predictions is crucial in advancing fair and trustworthy AI. While several promising methods for removing attribute bias in neural networks have been proposed, their limitations remain under-explored. In this work, we mathematically and empirically reveal an important limitation of attribute bias removal methods in presence of strong bias. Specifically, we derive a general non-vacuous information-theoretical upper bound on the performance of any attribute bias removal method in terms of the bias strength. We provide extensive experiments on synthetic, image, and census datasets to verify the theoretical bound and its consequences in practice. Our findings show that existing attribute bias removal methods are effective only when the inherent bias in the dataset is relatively weak, thus cautioning against the use of these methods in smaller datasets where strong attribute bias can occur, and advocating the need for methods that can overcome this limitation.
翻訳日:2023-10-12 14:06:43 公開日:2023-10-08
# 低ランク行列補完のための疎性誘導正規化器生成フレームワーク

A framework to generate sparsity-inducing regularizers for enhanced low-rank matrix completion ( http://arxiv.org/abs/2310.04954v1 )

ライセンス: Link先を確認
Zhi-Yong Wang and Hing Cheung So(参考訳) 損失関数に半量子最適化を適用すると対応する正規化子が得られるが、これらの正規化子は通常スパーシティ誘導正規化子(sirs)ではない。 そこで我々は,閉形式近接演算子を持つSIRを生成するためのフレームワークを考案した。 さらに、一般的な損失関数を用いてフレームワークを指定し、対応するSIRを生成し、低ランク行列補完のために非凸ランクサロゲートとして採用する。 さらに,乗算器の交互方向法に基づくアルゴリズムを開発した。 その結果, 回復性能と実行時間の観点から, 提案手法の有効性が示された。

Applying half-quadratic optimization to loss functions can yield the corresponding regularizers, while these regularizers are usually not sparsity-inducing regularizers (SIRs). To solve this problem, we devise a framework to generate an SIR with closed-form proximity operator. Besides, we specify our framework using several commonly-used loss functions, and produce the corresponding SIRs, which are then adopted as nonconvex rank surrogates for low-rank matrix completion. Furthermore, algorithms based on the alternating direction method of multipliers are developed. Extensive numerical results show the effectiveness of our methods in terms of recovery performance and runtime.
翻訳日:2023-10-12 14:06:27 公開日:2023-10-08
# 新規M-推定関数によるロバスト行列の完備化

Robust matrix completion via Novel M-estimator Functions ( http://arxiv.org/abs/2310.04953v1 )

ライセンス: Link先を確認
Zhi-Yong Wang and Hing Cheung So(参考訳) Welsch や Cauchy など M-estmators は、外れ値に対するロバスト性のために広く採用されているが、汚染されていないデータも下回っている。 この問題に対処するため,非凸関数のクラスを生成するためのフレームワークを考案した。 次に、Welsch, Cauchy および $\ell_p$-norm 関数に適用して、対応するロバストな損失関数を生成する。 ロバスト行列補完の適用を目標として、これらの関数に基づく効率的なアルゴリズムを開発し、それらの収束解析を行う。 最後に, 提案手法は, 回復精度と実行時間において, 競合手法よりも優れていることを示す。

M-estmators including the Welsch and Cauchy have been widely adopted for robustness against outliers, but they also down-weigh the uncontaminated data. To address this issue, we devise a framework to generate a class of nonconvex functions which only down-weigh outlier-corrupted observations. Our framework is then applied to the Welsch, Cauchy and $\ell_p$-norm functions to produce the corresponding robust loss functions. Targeting on the application of robust matrix completion, efficient algorithms based on these functions are developed and their convergence is analyzed. Finally, extensive numerical results demonstrate that the proposed methods are superior to the competitors in terms of recovery accuracy and runtime.
翻訳日:2023-10-12 14:06:16 公開日:2023-10-08
# codetransocean: コード翻訳のための総合的多言語ベンチマーク

CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation ( http://arxiv.org/abs/2310.04951v1 )

ライセンス: Link先を確認
Weixiang Yan, Yuchen Tian, Yunzhe Li, Qian Chen, Wen Wang(参考訳) 最近のコード翻訳技術は、ニューラルマシン翻訳モデルを利用して、あるプログラミング言語から別のプログラミング言語にソースコードを翻訳し、プロダクション互換性を満たすか、コードベースのメンテナンス効率を改善する。 既存のコード翻訳データセットのほとんどは、人気のあるプログラミング言語のペアにのみフォーカスする。 コード翻訳の研究を推進し、現実世界のアプリケーションの多様な要件を満たすため、コード翻訳のための最大の言語をサポートする大規模な総合ベンチマークであるCodeTransOceanを構築した。 CodeTransOceanは3つの新しい多言語データセット、すなわち、複数のポピュラープログラミング言語間の翻訳をサポートするMultilingualTrans、ニッチプログラミング言語とポピュラー言語間の翻訳を行うNicheTrans、大言語モデル(LLM)による翻訳コードのコンパイル可能性を評価するLLMTransで構成されている。 CodeTransOceanには、さまざまなフレームワーク間でディープラーニングコードを翻訳するための、新しいクロスフレームワークデータセットであるDLTransも含まれている。 我々は、コード翻訳のための多言語モデリング手法を開発し、低リソースと高リソースの言語ペアの翻訳品質を向上し、トレーニング効率を高める大きな可能性を示す。 また,プログラムレベルのコード変換のための評価基準デバッグ成功率@kを提案する。 最後に,LLM ChatGPTをデータセット上で評価し,ファジィコンパイル予測の可能性を検討する。 CodeTransOceanのベースラインを構築し、将来の研究を導くためのコード翻訳の課題を分析します。

Recent code translation techniques exploit neural machine translation models to translate source code from one programming language to another to satisfy production compatibility or to improve efficiency of codebase maintenance. Most existing code translation datasets only focus on a single pair of popular programming languages. To advance research on code translation and meet diverse requirements of real-world applications, we construct CodeTransOcean, a large-scale comprehensive benchmark that supports the largest variety of languages for code translation. CodeTransOcean consists of three novel multilingual datasets, namely, MultilingualTrans supporting translations between multiple popular programming languages, NicheTrans for translating between niche programming languages and popular ones, and LLMTrans for evaluating compilability of translated code by large language models (LLMs). CodeTransOcean also includes a novel cross-framework dataset, DLTrans, for translating deep learning code across different frameworks. We develop multilingual modeling approaches for code translation and demonstrate their great potential in improving the translation quality of both low-resource and high-resource language pairs and boosting the training efficiency. We also propose a novel evaluation metric Debugging Success Rate@K for program-level code translation. Last but not least, we evaluate LLM ChatGPT on our datasets and investigate its potential for fuzzy compilation predictions. We build baselines for CodeTransOcean and analyze challenges of code translation for guiding future research.
翻訳日:2023-10-12 14:06:02 公開日:2023-10-08
# 単純なチェッカーによるドメイン知識グラフの構築

Domain Knowledge Graph Construction Via A Simple Checker ( http://arxiv.org/abs/2310.04949v1 )

ライセンス: Link先を確認
Yueling Zeng, Li-C. Wang(参考訳) 大規模言語モデルが利用可能になるにつれ、半導体チップ設計会社がこの技術を活用することへの関心が高まっている。 これらの企業にとって、新しい方法論の展開には、機密性とスケーラビリティの2つの重要な考慮事項を含む必要がある。 この文脈では、ハードウェア設計ドメインテキストからの知識グラフ構築の問題に取り組む。 我々はgpt3.5のパワーを活用するためのoracle-checkerスキームを提案し、問題の本質がドメインエキスパートのバックグラウンド知識の蒸留であることを示す。 RISC-V非特権ISA仕様を例として、鍵となるアイデアを説明し、提案するオラクル・チェッカー手法の実用性について議論する。

With the availability of large language models, there is a growing interest for semiconductor chip design companies to leverage the technologies. For those companies, deployment of a new methodology must include two important considerations: confidentiality and scalability. In this context, this work tackles the problem of knowledge graph construction from hardware-design domain texts. We propose an oracle-checker scheme to leverage the power of GPT3.5 and demonstrate that the essence of the problem is in distillation of domain expert's background knowledge. Using RISC-V unprivileged ISA specification as an example, we explain key ideas and discuss practicality of our proposed oracle-checker approach.
翻訳日:2023-10-12 14:05:39 公開日:2023-10-08
# 大規模言語モデルにおける幻覚の厄介な発生 -- 包括的定義、定量化、規範的修復

The Troubling Emergence of Hallucination in Large Language Models -- An Extensive Definition, Quantification, and Prescriptive Remediations ( http://arxiv.org/abs/2310.04988v1 )

ライセンス: Link先を確認
Vipula Rawte, Swagata Chakraborty, Agnibh Pathak, Anubhav Sarkar, S.M Towhidul Islam Tonmoy, Aman Chadha, Amit P. Sheth, Amitava Das(参考訳) 最近のLLM(Large Language Models)の進歩は、その顕著な出現能力に対して広く称賛されている。 しかし、幻覚の問題は副産物として並列に現れ、重大な懸念を呈している。 近年の幻覚の特定・緩和への取り組みはいくつかあるが、幻覚の微妙な分類とそれに関連する緩和方法に限定的に重点が置かれている。 このギャップに対処するために、我々は、その度合い、向き、カテゴリーに基づいて、プロファイリング幻覚に関するきめ細かい談話と、緩和戦略を提供する。 このように、幻覚の2つの包括的な方向を定義する。 (i)事実ミラージュ(fm)及び (ii)銀製ライニング(sl) より包括的に理解するために、両方向はさらに内在的、外在的に分類され、3度の重度を持つ。 (i)軽度。 (ii)適度で (iii)警報。 幻覚も慎重に6種類に分類する。 (i)曖昧さの頭字語 (ii)数字のニュアンス (iii)ゴーレム。 (iv)仮想声 (v)地理的不規則、及び (vi)タイムラップ。 さらに,HalucInation eLiciTation (HILT) は,15個の現代LPMを用いて作成した75,000個のサンプルと,前述のカテゴリに対する人間のアノテーションからなる公開データセットである。 最後に,幻覚を発生させる脆弱性に基づいてLLMの評価とランク付けを行うための比較スペクトルの定量化手法を確立するために,Halucination Vulnerability Index (HVI)を提案する。 私たちは、HVIが幅広いNLPコミュニティのツールとして重要な価値を持っていると強く信じています。 結論として,幻覚を緩和するための2つの解法を提案する。

The recent advancements in Large Language Models (LLMs) have garnered widespread acclaim for their remarkable emerging capabilities. However, the issue of hallucination has parallelly emerged as a by-product, posing significant concerns. While some recent endeavors have been made to identify and mitigate different types of hallucination, there has been a limited emphasis on the nuanced categorization of hallucination and associated mitigation methods. To address this gap, we offer a fine-grained discourse on profiling hallucination based on its degree, orientation, and category, along with offering strategies for alleviation. As such, we define two overarching orientations of hallucination: (i) factual mirage (FM) and (ii) silver lining (SL). To provide a more comprehensive understanding, both orientations are further sub-categorized into intrinsic and extrinsic, with three degrees of severity - (i) mild, (ii) moderate, and (iii) alarming. We also meticulously categorize hallucination into six types: (i) acronym ambiguity, (ii) numeric nuisance, (iii) generated golem, (iv) virtual voice, (v) geographic erratum, and (vi) time wrap. Furthermore, we curate HallucInation eLiciTation (HILT), a publicly available dataset comprising of 75,000 samples generated using 15 contemporary LLMs along with human annotations for the aforementioned categories. Finally, to establish a method for quantifying and to offer a comparative spectrum that allows us to evaluate and rank LLMs based on their vulnerability to producing hallucinations, we propose Hallucination Vulnerability Index (HVI). We firmly believe that HVI holds significant value as a tool for the wider NLP community, with the potential to serve as a rubric in AI-related policy-making. In conclusion, we propose two solution strategies for mitigating hallucinations.
翻訳日:2023-10-12 13:58:13 公開日:2023-10-08
# データ中心のグラフ学習:調査

Data-centric Graph Learning: A Survey ( http://arxiv.org/abs/2310.04987v1 )

ライセンス: Link先を確認
Cheng Yang, Deyu Bo, Jixi Liu, Yufei Peng, Boyu Chen, Haoran Dai, Ao Sun, Yue Yu, Yixin Xiao, Qi Zhang, Chunchen Wang, Yuxin Guo, Chuan Shi(参考訳) 人工知能(AI)の歴史は、ImageNet for AlexNetやResNetなど、さまざまなディープラーニングモデルに対する高品質なデータの影響を目撃している。 近年、より複雑なニューラルアーキテクチャをモデル中心のアプローチとして設計する代わりに、AIコミュニティの注目はデータ中心のアーキテクチャへとシフトし、ニューラルネットワークの能力を強化するためのデータ処理の改善に注力している。 ユビキタスなトポロジカルデータを扱うグラフ学習も,ディープラーニングの時代において重要な役割を担っている。 本研究では,データ中心の観点からグラフ学習のアプローチを総合的に検討し,(1)グラフデータの変更時期,(2)グラフデータの修正方法,および(2)グラフモデルのポテンシャルを解き放つ方法の2つの重要な疑問に答えることを目的とする。 そこで本研究では,グラフ学習パイプラインの段階に基づく新しい分類法を提案し,グラフデータ中の異なるデータ構造,すなわちトポロジー,特徴,ラベルの処理方法を強調する。 さらに,グラフデータに埋め込まれた潜在的な問題を解析し,データ中心の方法で解く方法について議論する。 最後に,データ中心グラフ学習の今後の方向性について述べる。

The history of artificial intelligence (AI) has witnessed the significant impact of high-quality data on various deep learning models, such as ImageNet for AlexNet and ResNet. Recently, instead of designing more complex neural architectures as model-centric approaches, the attention of AI community has shifted to data-centric ones, which focuses on better processing data to strengthen the ability of neural models. Graph learning, which operates on ubiquitous topological data, also plays an important role in the era of deep learning. In this survey, we comprehensively review graph learning approaches from the data-centric perspective, and aim to answer two crucial questions: (1) when to modify graph data and (2) how to modify graph data to unlock the potential of various graph models. Accordingly, we propose a novel taxonomy based on the stages in the graph learning pipeline, and highlight the processing methods for different data structures in the graph data, i.e., topology, feature and label. Furthermore, we analyze some potential problems embedded in graph data and discuss how to solve them in a data-centric manner. Finally, we provide some promising future directions for data-centric graph learning.
翻訳日:2023-10-12 13:57:44 公開日:2023-10-08
# 貨幣の新しい経済・金融理論

A new economic and financial theory of money ( http://arxiv.org/abs/2310.04986v1 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) 本論文は,電子通貨を含む経済・金融理論を根本的に改革する。 電子通貨の評価は、割引キャッシュフローのミクロ経済理論ではなく、マクロ経済理論と金融政策の基本方程式に基づいて行われる。 サブエコノミーの有形資産に付随する取引的エクイティとしての電子通貨の考え方は、主にサブエコノミーの無形資産に付随する株式としての株式の考え方とは対照的に発展する。 この見解は、実質的な(電子通貨の流動性のために)金融(電子通貨供給及び価値安定化)及び財政(投資及び運用)政策の調整を行う機関として、電子通貨管理会社によって策定される。 評価と意思決定で使用されるリスクモデルは、ディスカウント率につながるユビキタスで不適切な指数的リスクモデルではなく、真のリスクを捉えるマルチタイムスケールモデルになります。 意思決定は、多スケールリスクモデルと、Deep Reinforcement Learning、Generative Pretrained Transformers、その他の人工知能(DRL/GPT/AI)を利用したシステムコントローラによって与えられるシステム応答関数に基づいて、真のシステム制御の観点からアプローチされる。 最後に、サブエコノミーは、短期的な利用に関連する安定平衡と、マルチスケールのシステム応答関数とDRL/GPT/AIに基づくアクティブな非線形制御で安定化する必要がある不安定平衡の両方を持つ非線形複素物理系と見なされる。

This paper fundamentally reformulates economic and financial theory to include electronic currencies. The valuation of the electronic currencies will be based on macroeconomic theory and the fundamental equation of monetary policy, not the microeconomic theory of discounted cash flows. The view of electronic currency as a transactional equity associated with tangible assets of a sub-economy will be developed, in contrast to the view of stock as an equity associated mostly with intangible assets of a sub-economy. The view will be developed of the electronic currency management firm as an entity responsible for coordinated monetary (electronic currency supply and value stabilization) and fiscal (investment and operational) policies of a substantial (for liquidity of the electronic currency) sub-economy. The risk model used in the valuations and the decision-making will not be the ubiquitous, yet inappropriate, exponential risk model that leads to discount rates, but will be multi time scale models that capture the true risk. The decision-making will be approached from the perspective of true systems control based on a system response function given by the multi scale risk model and system controllers that utilize the Deep Reinforcement Learning, Generative Pretrained Transformers, and other methods of Artificial Intelligence (DRL/GPT/AI). Finally, the sub-economy will be viewed as a nonlinear complex physical system with both stable equilibriums that are associated with short-term exploitation, and unstable equilibriums that need to be stabilized with active nonlinear control based on the multi scale system response functions and DRL/GPT/AI.
翻訳日:2023-10-12 13:57:26 公開日:2023-10-08
# 生成型圧縮センシングのためのモデル適応フーリエサンプリング

Model-adapted Fourier sampling for generative compressed sensing ( http://arxiv.org/abs/2310.04984v1 )

ライセンス: Link先を確認
Aaron Berk, Simone Brugiapaglia, Yaniv Plan, Matthew Scott, Xia Sheng, Ozgur Yilmaz(参考訳) 測定行列を単位行列からランダムにサブサンプリングした場合(DFTが重要な場合)に生成的圧縮センシングについて検討する。 最近、$\textit{o}(kdn\| \boldsymbol{\alpha}\|_{\infty}^{2})$一様ランダムフーリエ測定は、ニューラルネットワークの範囲内の信号を回復するのに十分であることが示されている:\mathbb{r}^k \to \mathbb{r}^n$ of depth $d$、ここで、いわゆる局所コヒーレンスベクトル $\boldsymbol{\alpha}$は、対応するフーリエベクトルのアライメントを$g$の範囲で定量化する。 我々は,$\textit{o}(kd\| \boldsymbol{\alpha}\|_{2}^{2})$のサンプル複雑性を改善したモデル適応サンプリング戦略を構築した。 これにより,(1)不均一にランダムなサンプリング分布に対する新たな理論的回復が保証され,(2)サンプリング分布を最適化し,これらの保証に必要な測定回数を最小化する。 この開発は、しばしば低いフーリエ周波数とほぼ極大に一致している自然信号クラスに適用可能なサンプル複雑性を提供する。 最後に,セレバデータセットを用いたリカバリ実験において,サロゲートサンプリング方式を検討し,その性能を検証する。

We study generative compressed sensing when the measurement matrix is randomly subsampled from a unitary matrix (with the DFT as an important special case). It was recently shown that $\textit{O}(kdn\| \boldsymbol{\alpha}\|_{\infty}^{2})$ uniformly random Fourier measurements are sufficient to recover signals in the range of a neural network $G:\mathbb{R}^k \to \mathbb{R}^n$ of depth $d$, where each component of the so-called local coherence vector $\boldsymbol{\alpha}$ quantifies the alignment of a corresponding Fourier vector with the range of $G$. We construct a model-adapted sampling strategy with an improved sample complexity of $\textit{O}(kd\| \boldsymbol{\alpha}\|_{2}^{2})$ measurements. This is enabled by: (1) new theoretical recovery guarantees that we develop for nonuniformly random sampling distributions and then (2) optimizing the sampling distribution to minimize the number of measurements needed for these guarantees. This development offers a sample complexity applicable to natural signal classes, which are often almost maximally coherent with low Fourier frequencies. Finally, we consider a surrogate sampling scheme, and validate its performance in recovery experiments using the CelebA dataset.
翻訳日:2023-10-12 13:56:58 公開日:2023-10-08
# 低リソース・カスタマイズデータセットを用いた深層学習テキスト音声モデルの伝達学習の比較分析

Comparative Analysis of Transfer Learning in Deep Learning Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset ( http://arxiv.org/abs/2310.04982v1 )

ライセンス: Link先を確認
Ze Liu(参考訳) 深層学習を用いたテキスト音声合成は音声品質に依存している。 現代のTSモデルは進歩しているが、大量のデータが必要である。 これらのモデルの計算複雑性の増大と、大規模で高品質なデータセットの不足を考えると、この研究はトランスファーラーニング、特に少数ショット、低リソース、カスタマイズされたデータセットに焦点を当てている。 本研究では,特定の言語や方言に対して,少数の音声録音や対応する書き起こしなど,限られた量の訓練データが存在する状況について,特に「低リソース」と呼ぶ。 この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。 本研究は,ttsモデル伝達学習能力を徹底的な技術分析によって評価する。 次に、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオン実験分析を行う。 本研究では,トランスファー学習を専門データセットに適用した最新のTSシステムの有効性と,学習効率と合成品質のバランスをとるモデルについて検討した。 最初の仮説は、転送学習はコンパクトデータセット上でのTSモデルの性能を著しく改善し、そのようなユニークな条件に対して最適なモデルが存在することを示唆している。 この論文は、データ不足が増加するにつれて、TSにおける転送学習の増加を予測する。 将来的には、汎用的なデータ集約型アプリケーションよりも、特定のデータセットに最適化されたモデルを好むだろう。

Text-to-Speech (TTS) synthesis using deep learning relies on voice quality. Modern TTS models are advanced, but they need large amount of data. Given the growing computational complexity of these models and the scarcity of large, high-quality datasets, this research focuses on transfer learning, especially on few-shot, low-resource, and customized datasets. In this research, "low-resource" specifically refers to situations where there are limited amounts of training data, such as a small number of audio recordings and corresponding transcriptions for a particular language or dialect. This thesis, is rooted in the pressing need to find TTS models that require less training time, fewer data samples, yet yield high-quality voice output. The research evaluates TTS state-of-the-art model transfer learning capabilities through a thorough technical analysis. It then conducts a hands-on experimental analysis to compare models' performance in a constrained dataset. This study investigates the efficacy of modern TTS systems with transfer learning on specialized datasets and a model that balances training efficiency and synthesis quality. Initial hypotheses suggest that transfer learning could significantly improve TTS models' performance on compact datasets, and an optimal model may exist for such unique conditions. This thesis predicts a rise in transfer learning in TTS as data scarcity increases. In the future, custom TTS applications will favour models optimized for specific datasets over generic, data-intensive ones.
翻訳日:2023-10-12 13:56:32 公開日:2023-10-08
# 開語彙空間空間表現のための構成意味論

Compositional Semantics for Open Vocabulary Spatio-semantic Representations ( http://arxiv.org/abs/2310.04981v1 )

ライセンス: Link先を確認
Robin Karlsson, Francisco Lepe-Salazar, Kazuya Takeda(参考訳) 汎用移動ロボットは、人間の指示なしにタスクを完了する必要がある。 大言語モデル(LLM)は、常識の世界知識と推論に基づく計画を実現するための有望な方向である。 視覚言語モデル(VLM)は環境をLLMで解釈可能な視覚言語意味論に変換する。 しかし、複雑なタスクの完了には、現在認識されていること以上の情報に関する推論が必要となることが多い。 本稿では,質問可能な時空間記憶のための学習に基づく知識表現として,潜在合成意味埋め込み z* を提案する。 数学的には、常に z* が見つかることを証明し、最適な z* は任意の集合 Z に対する中心関数である。 視覚的外観や特異な記述からの勾配降下による反復最適化により、z*が発見可能であることを示す。 4つの埋め込み空間inclについて実験的に検証した。 CLIPとSBERT。 以上の結果から,z*はSBERTで符号化された最大10のセマンティクスを表現でき,100のセマンティクスを理想的な一様分布高次元埋め込みに適用できることがわかった。 我々は、COCO-Stuffデータセットで訓練された単純な高密度VLMは、一般的なSOTAモデルと比較して、従来の非重複な開語彙セグメンテーション性能を+3.48 mIoUで改善しながら、42.23 mIoUで181の重なり合う意味を学習できることを示した。

General-purpose mobile robots need to complete tasks without exact human instructions. Large language models (LLMs) is a promising direction for realizing commonsense world knowledge and reasoning-based planning. Vision-language models (VLMs) transform environment percepts into vision-language semantics interpretable by LLMs. However, completing complex tasks often requires reasoning about information beyond what is currently perceived. We propose latent compositional semantic embeddings z* as a principled learning-based knowledge representation for queryable spatio-semantic memories. We mathematically prove that z* can always be found, and the optimal z* is the centroid for any set Z. We derive a probabilistic bound for estimating separability of related and unrelated semantics. We prove that z* is discoverable by iterative optimization by gradient descent from visual appearance and singular descriptions. We experimentally verify our findings on four embedding spaces incl. CLIP and SBERT. Our results show that z* can represent up to 10 semantics encoded by SBERT, and up to 100 semantics for ideal uniformly distributed high-dimensional embeddings. We demonstrate that a simple dense VLM trained on the COCO-Stuff dataset can learn z* for 181 overlapping semantics by 42.23 mIoU, while improving conventional non-overlapping open-vocabulary segmentation performance by +3.48 mIoU compared with a popular SOTA model.
翻訳日:2023-10-12 13:56:09 公開日:2023-10-08
# topicadapt - コーポラ間のトピック適応アプローチ

TopicAdapt- An Inter-Corpora Topics Adaptation Approach ( http://arxiv.org/abs/2310.04978v1 )

ライセンス: Link先を確認
Pritom Saha Akash, Trisha Das, Kevin Chen-Chuan Chang(参考訳) トピックモデルはテキストコーパス内の潜在意味トピックを検出する一般的な統計ツールである。 これらは様々な分野の様々なアプリケーションで利用されている。 しかし、従来のトピックモデルには、ユーザガイダンスに対する感受性、データの量と品質に対する感度、学習したトピックをコーパスから別のコーパスに適応できないことなど、いくつかの制限がある。 これらの課題に対処するため,本稿では,関連する情報源コーパスから関連するトピックを適応させ,ソースコーパスに存在しないターゲットコーパスで新たなトピックを発見できる,ニューラルトピックモデルである topicadapt を提案する。 提案モデルは,実践シナリオにおけるトピックモデリング性能を改善するための有望なアプローチを提供する。 多様なドメインからの複数のデータセットに対する実験は、提案モデルが最先端のトピックモデルに対して優れていることを示している。

Topic models are popular statistical tools for detecting latent semantic topics in a text corpus. They have been utilized in various applications across different fields. However, traditional topic models have some limitations, including insensitivity to user guidance, sensitivity to the amount and quality of data, and the inability to adapt learned topics from one corpus to another. To address these challenges, this paper proposes a neural topic model, TopicAdapt, that can adapt relevant topics from a related source corpus and also discover new topics in a target corpus that are absent in the source corpus. The proposed model offers a promising approach to improve topic modeling performance in practical scenarios. Experiments over multiple datasets from diverse domains show the superiority of the proposed model against the state-of-the-art topic models.
翻訳日:2023-10-12 13:55:44 公開日:2023-10-08
# 分布シフトに対するマルチモーダルコントラスト学習のロバスト性理解

Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift ( http://arxiv.org/abs/2310.04971v1 )

ライセンス: Link先を確認
Yihao Xue, Siddharth Joshi, Dang Nguyen, Baharan Mirzasoleiman(参考訳) 近年、CLIPのようなマルチモーダルコントラスト学習(MMCL)アプローチは、分散シフトに対して堅牢で、新しいドメインに一般化する学習表現において顕著な成功を収めている。 経験的な成功にもかかわらず、そのような一般化された表現を学ぶメカニズムは理解されていない。 本研究では、この問題を厳密に解析し、mmclの強固さの背後にある2つのメカニズムを明らかにする: \emph{intra-class contrasting}、高分散で特徴を学習できる \emph{inter-class feature sharing}、あるクラス内の注釈付き詳細が他のクラスをよりよく学ぶのに役立つ。 どちらのメカニズムも、トレーニングデータに過剰に表示されたスプリアスな特徴を防ぎ、一般化可能なコア機能をオーバーシャドウする。 これにより、分布シフト時のゼロショット分類精度が向上する。 さらに, リッチキャプションの利用がロバスト性に与える影響を理論的に実証し, キャプション内の様々な種類の詳細に注釈を付ける効果について検討する。 我々は,MS COCO上でCLIPを訓練し,変化した画像ネットの変動に関するモデルを評価することを含む,よく設計された合成実験や実験を通じて理論的知見を検証する。

Recently, multimodal contrastive learning (MMCL) approaches, such as CLIP, have achieved a remarkable success in learning representations that are robust against distribution shift and generalize to new domains. Despite the empirical success, the mechanism behind learning such generalizable representations is not understood. In this work, we rigorously analyze this problem and uncover two mechanisms behind MMCL's robustness: \emph{intra-class contrasting}, which allows the model to learn features with a high variance, and \emph{inter-class feature sharing}, where annotated details in one class help learning other classes better. Both mechanisms prevent spurious features that are over-represented in the training data to overshadow the generalizable core features. This yields superior zero-shot classification accuracy under distribution shift. Furthermore, we theoretically demonstrate the benefits of using rich captions on robustness and explore the effect of annotating different types of details in the captions. We validate our theoretical findings through experiments, including a well-designed synthetic experiment and an experiment involving training CLIP on MS COCO and evaluating the model on variations of shifted ImageNet.
翻訳日:2023-10-12 13:55:30 公開日:2023-10-08
# 依存レバレッジスコアサンプリングによるアクティブラーニングの改善

Improved Active Learning via Dependent Leverage Score Sampling ( http://arxiv.org/abs/2310.04966v1 )

ライセンス: Link先を確認
Atsushi Shimizu, Xiaoou Cheng, Christopher Musco, Jonathan Weare(参考訳) 本研究では,余剰レバレッジスコアのサンプリングと空間被覆を促進する非独立サンプリング戦略を組み合わせることで,アグノスティック(逆方向雑音)設定におけるアクティブな学習方法の改善方法を示す。 特に,パラメトリックpdesの学習に基づく手法と不確かさの定量化によって引き起こされる問題について検証するpivotal samplingアルゴリズムに基づく簡易実装手法を提案する。 本手法は, 個別サンプリングと比較して, 所定の目標精度に達するために必要なサンプル数を最大50\%程度削減する。 2つの理論的結果が得られた。 まず,弱片面$\ell_{\infty}$独立条件に従う非独立レバレッジスコアサンプリング法(重要なサンプリングを含む)は,o(d\log d)$サンプルを用いて,d$次元線形関数を積極的に学習し,独立サンプリングと一致することを示す。 この結果は、行列チャーノフ境界に関する最近の研究を$\ell_{\infty}$ independenceで拡張し、重要なサンプリング以外のサンプリング戦略を分析することにも興味がある。 第二に、多項式回帰の重要な場合において、我々のピボット法は、改良された$O(d)$サンプルを得る。

We show how to obtain improved active learning methods in the agnostic (adversarial noise) setting by combining marginal leverage score sampling with non-independent sampling strategies that promote spatial coverage. In particular, we propose an easily implemented method based on the pivotal sampling algorithm, which we test on problems motivated by learning-based methods for parametric PDEs and uncertainty quantification. In comparison to independent sampling, our method reduces the number of samples needed to reach a given target accuracy by up to $50\%$. We support our findings with two theoretical results. First, we show that any non-independent leverage score sampling method that obeys a weak one-sided $\ell_{\infty}$ independence condition (which includes pivotal sampling) can actively learn $d$ dimensional linear functions with $O(d\log d)$ samples, matching independent sampling. This result extends recent work on matrix Chernoff bounds under $\ell_{\infty}$ independence, and may be of interest for analyzing other sampling strategies beyond pivotal sampling. Second, we show that, for the important case of polynomial regression, our pivotal method obtains an improved bound of $O(d)$ samples.
翻訳日:2023-10-12 13:55:07 公開日:2023-10-08
# multiscript: オープンドメインの日常タスクをサポートするマルチモーダルスクリプト学習

MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday Tasks ( http://arxiv.org/abs/2310.04965v1 )

ライセンス: Link先を確認
Jingyuan Qi, Minqian Liu, Ying Shen, Zhiyang Xu, Lifu Huang(参考訳) ビデオデモからスクリプト(つまり、テキストで記述された重要なステップのシーケンス)を自動的に生成し、その後のステップを推論することは、現代のAI仮想アシスタントにとって重要であり、人間の日常のタスク、特に馴染みのないタスクの完了を導く。 しかし、現在の生成スクリプト学習の方法は、テキストや画像に記述された、あるいは特定の領域に限定された、十分に構造化された前のステップに大きく依存しているため、現実のユーザシナリオとの相違が生じている。 タスク指向のマルチモーダルスクリプト学習では,(1)マルチモーダルスクリプトの生成,(2)ステップ予測という2つの新しいタスクが導入された。 両方のタスクに対して、入力は、目標タスク名と、目標タスクを完了するために実行されたことをイラストしたビデオで構成され、期待出力は、(1)デモビデオに基づくテキスト中の構造化されたステップ記述のシーケンス、(2)次のステップのための単一のテキスト記述である。 wikihowから構築されたmultiscriptは、19のさまざまなドメインにわたる6655以上の人間の日常タスクの、ビデオやテキスト記述のマルチモーダルスクリプトをカバーする。 マルチスクリプトのベースライン性能を確立するために、vicunaのような大規模言語モデルから引き起こされたタスク関連の知識を組み込んだ2つの知識誘導型マルチモーダル生成フレームワークを提案する。 実験の結果,提案手法は競争ベースラインよりも大幅に改善した。

Automatically generating scripts (i.e. sequences of key steps described in text) from video demonstrations and reasoning about the subsequent steps are crucial to the modern AI virtual assistants to guide humans to complete everyday tasks, especially unfamiliar ones. However, current methods for generative script learning rely heavily on well-structured preceding steps described in text and/or images or are limited to a certain domain, resulting in a disparity with real-world user scenarios. To address these limitations, we present a new benchmark challenge -- MultiScript, with two new tasks on task-oriented multimodal script learning: (1) multimodal script generation, and (2) subsequent step prediction. For both tasks, the input consists of a target task name and a video illustrating what has been done to complete the target task, and the expected output is (1) a sequence of structured step descriptions in text based on the demonstration video, and (2) a single text description for the subsequent step, respectively. Built from WikiHow, MultiScript covers multimodal scripts in videos and text descriptions for over 6,655 human everyday tasks across 19 diverse domains. To establish baseline performance on MultiScript, we propose two knowledge-guided multimodal generative frameworks that incorporate the task-related knowledge prompted from large language models such as Vicuna. Experimental results show that our proposed approaches significantly improve over the competitive baselines.
翻訳日:2023-10-12 13:54:45 公開日:2023-10-08
# 眼科人工知能ライフサイクルにおけるバイアスの顕在化と落とし穴 : レビュー

Unmasking Biases and Navigating Pitfalls in the Ophthalmic Artificial Intelligence Lifecycle: A Review ( http://arxiv.org/abs/2310.04997v1 )

ライセンス: Link先を確認
Luis Filipe Nakayama, Jo\~ao Matos, Justin Quion, Frederico Novaes, William Greig Mitchell, Rogers Mwavu, Ju-Yi Ji Hung, Alvina Pauline dy Santiago, Warachaya Phanphruk, Jaime S. Cardoso, Leo Anthony Celi(参考訳) 過去20年間で、データ可用性、計算能力、新たに利用可能なモデリング技術が指数関数的に増加し、人工知能(AI)アプリケーションへの関心、投資、研究が拡大した。 眼科は、遠隔医療スクリーニングプログラムの出現と補助画像の使用を考えると、AIの恩恵を受ける多くの分野の1つである。 しかし、AIが広くデプロイされる前には、AIライフサイクル内の落とし穴を避けるために、さらなる作業が必要です。 この記事では、AIライフサイクルを、データ収集、モデルタスクの定義、データ前処理とラベリング、モデル開発、モデル評価とバリデーション、デプロイメント、最後に、デプロイ後の評価、監視、システムリカバリの7つのステップに分類し、各ステップにおける危害のリスクと軽減戦略について論じます。

Over the past two decades, exponential growth in data availability, computational power, and newly available modeling techniques has led to an expansion in interest, investment, and research in Artificial Intelligence (AI) applications. Ophthalmology is one of many fields that seek to benefit from AI given the advent of telemedicine screening programs and the use of ancillary imaging. However, before AI can be widely deployed, further work must be done to avoid the pitfalls within the AI lifecycle. This review article breaks down the AI lifecycle into seven steps: data collection; defining the model task; data pre-processing and labeling; model development; model evaluation and validation; deployment; and finally, post-deployment evaluation, monitoring, and system recalibration and delves into the risks for harm at each step and strategies for mitigating them.
翻訳日:2023-10-12 13:49:31 公開日:2023-10-08
# SemST: 構造テクスチュアアアライメントによる連続的に一貫性のあるマルチスケール画像変換

SemST: Semantically Consistent Multi-Scale Image Translation via Structure-Texture Alignment ( http://arxiv.org/abs/2310.04995v1 )

ライセンス: Link先を確認
Ganning Zhao, Wenhui Cui, Suya You and C.-C. Jay Kuo(参考訳) Unsupervised Image-to-image (I2I) 翻訳は、ソースドメインからの入力をターゲットドメインの出力に転送するクロスドメインイメージマッピングを学習し、セマンティクスを保存する。 1つの課題は、ソースドメインとターゲットドメインの異なる意味統計が、セマンティック歪みとして知られる内容の相違をもたらすことである。 そこで本研究では,翻訳における意味的一貫性を維持する新しいI2I手法を提案し,SemSTと名付けた。 SemSTは、コントラスト学習を採用し、相互情報の最大化により、入力と出力の構造的およびテクスチャ的特性を整合させることにより意味歪みを低減する。 さらに,マルチスケールによる翻訳性能の向上により,高分解能画像におけるsemstの領域適応性が向上した。 実験により,SemSTは意味的歪みを効果的に軽減し,最先端の性能を実現することが示された。 また,SemSTのドメイン適応(DA)への応用についても検討した。 予備実験により,semstは意味セグメンテーションタスクに有効な事前学習として利用できることを示した。

Unsupervised image-to-image (I2I) translation learns cross-domain image mapping that transfers input from the source domain to output in the target domain while preserving its semantics. One challenge is that different semantic statistics in source and target domains result in content discrepancy known as semantic distortion. To address this problem, a novel I2I method that maintains semantic consistency in translation is proposed and named SemST in this work. SemST reduces semantic distortion by employing contrastive learning and aligning the structural and textural properties of input and output by maximizing their mutual information. Furthermore, a multi-scale approach is introduced to enhance translation performance, thereby enabling the applicability of SemST to domain adaptation in high-resolution images. Experiments show that SemST effectively mitigates semantic distortion and achieves state-of-the-art performance. Also, the application of SemST to domain adaptation (DA) is explored. It is demonstrated by preliminary experiments that SemST can be utilized as a beneficial pre-training for the semantic segmentation task.
翻訳日:2023-10-12 13:49:14 公開日:2023-10-08
# 遠隔教師付きジョイントエンティティとノイズロバスト学習による関係抽出

Distantly-Supervised Joint Entity and Relation Extraction with Noise-Robust Learning ( http://arxiv.org/abs/2310.04994v1 )

ライセンス: Link先を確認
Yufei Li, Xiao Yu, Yanghong Guo, Yanchi Liu, Haifeng Chen, Cong Liu(参考訳) 結合エンティティと関係抽出は、一つのモデルを用いてエンティティペアとその関係を識別するプロセスである。 テキストコーパス内のエンティティ参照と対応するエンティティと、知識ベースにおける関係型を整合させることによって生成される、遠方ラベル付きデータにこれらのモデルをトレーニングする問題に焦点を当てる。 ここでの1つの重要な課題は、エンティティと関係アノテーションの両方から生じるノイズの多いラベルの存在であり、教師付き学習アプリケーションの有効性を著しく損なう。 しかし、既存の研究は主に1種類のノイズのみに対処し、ノイズ低減の有効性を制限している。 このギャップを埋めるために、(1)事前学習したGPT-2を同時エンティティと関係検出のためのシーケンスタギングスキームに組み込むこと、(2)重要な関係パターンとエンティティ-リレーショナル依存関係の両方に一貫性を付与する新しい損失関数を含むノイズ-ロバスト学習フレームワークを導入すること、および、高品質なインスタンスを反復的に選択し訓練する自己適応学習ステップを導入することを提案する。 2つのデータセットに対する実験により,本手法は,関節抽出性能と雑音低減効果の両方において,既存の最先端手法よりも優れていた。

Joint entity and relation extraction is a process that identifies entity pairs and their relations using a single model. We focus on the problem of training these models on distantly-labeled data, which is generated by aligning entity mentions in a text corpus with their corresponding entity and relation types in a knowledge base. One key challenge here is the presence of noisy labels, which arises from both entity and relation annotations, and significantly impair the effectiveness of supervised learning applications. However, existing research primarily addresses only one type of noise, thereby limiting the effectiveness of noise reduction. To fill this gap, we introduce a new noise-robust approach, that 1)~incorporates a pre-trained GPT-2 into a sequence tagging scheme for simultaneous entity and relation detection, and 2)~employs a noise-robust learning framework which includes a new loss function that penalizes inconsistency with both significant relation patterns and entity-relation dependencies, as well as a self-adaptive learning step that iteratively selects and trains on high-quality instances. Experiments on two datasets show that our method outperforms the existing state-of-the-art methods in both joint extraction performance and noise reduction effect.
翻訳日:2023-10-12 13:48:52 公開日:2023-10-08
# ストリーミングイベントシーケンスのための瞬時時間点処理

Prompt-augmented Temporal Point Process for Streaming Event Sequence ( http://arxiv.org/abs/2310.04993v1 )

ライセンス: Link先を確認
Siqiao Xue, Yan Wang, Zhixuan Chu, Xiaoming Shi, Caigao Jiang, Hongyan Hao, Gangwei Jiang, Xiaoyun Feng, James Y. Zhang, Jun Zhou(参考訳) neural temporal point process(tpp)は、web上のユーザアクティビティや金融取引など、継続的なイベントシーケンスをモデリングするための一般的なパラダイムである。 現実のアプリケーションでは、イベントデータは典型的には \emph{streaming} 形式で受信される。 さらに、emph{privacy and memory constraints} は実践的なシナリオで一般的に見られ、課題をさらに複雑にしている。 したがって、ストリーミングイベントシーケンスを学習するためのTPPの継続的な監視は、重要でありながら未探索の課題である。 我々の研究論文は、現実的な制約の下で破滅的な忘れをすることなく連続的なタスク列を学習できるモデルである連続学習(CL)を採用することで、この課題に対処する。 これに対応して, ベースTPPを連続的な検索プロンプトプールに統合することにより, 単純かつ効果的なフレームワークである PromptTPP\footnote{Our code is available at {\small \url{ https://github.com/yanSann/PromptTPP}}} を提案する。 プロンプト、小さな学習可能なパラメータはメモリ空間に格納され、ベースTPPと共同で最適化され、過去の例やタスク固有の属性をバッファリングすることなく、モデルがイベントストリームをシーケンシャルに学習することを保証する。 本稿では,PromptTPPが3つの実際のユーザ行動データセットに対して一貫して最先端のパフォーマンスを実現するイベントストリームをモデル化するための,新しい,現実的な実験環境を提案する。

Neural Temporal Point Processes (TPPs) are the prevalent paradigm for modeling continuous-time event sequences, such as user activities on the web and financial transactions. In real-world applications, event data is typically received in a \emph{streaming} manner, where the distribution of patterns may shift over time. Additionally, \emph{privacy and memory constraints} are commonly observed in practical scenarios, further compounding the challenges. Therefore, the continuous monitoring of a TPP to learn the streaming event sequence is an important yet under-explored problem. Our work paper addresses this challenge by adopting Continual Learning (CL), which makes the model capable of continuously learning a sequence of tasks without catastrophic forgetting under realistic constraints. Correspondingly, we propose a simple yet effective framework, PromptTPP\footnote{Our code is available at {\small \url{ https://github.com/yanyanSann/PromptTPP}}}, by integrating the base TPP with a continuous-time retrieval prompt pool. The prompts, small learnable parameters, are stored in a memory space and jointly optimized with the base TPP, ensuring that the model learns event streams sequentially without buffering past examples or task-specific attributes. We present a novel and realistic experimental setup for modeling event streams, where PromptTPP consistently achieves state-of-the-art performance across three real user behavior datasets.
翻訳日:2023-10-12 13:48:27 公開日:2023-10-08
# visionfm:汎用眼科人工知能のためのマルチモーダルマルチタスクビジョン基盤モデル

VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence ( http://arxiv.org/abs/2310.04992v1 )

ライセンス: Link先を確認
Jianing Qiu, Jian Wu, Hao Wei, Peilun Shi, Minqing Zhang, Yunyun Sun, Lin Li, Hanruo Liu, Hongyi Liu, Simeng Hou, Yuyang Zhao, Xuehui Shi, Junfang Xian, Xiaoxia Qu, Sirui Zhu, Lijie Pan, Xiaoniao Chen, Xiaojia Zhang, Shuai Jiang, Kebing Wang, Chenlong Yang, Mingqiang Chen, Sujie Fan, Jianhua Hu, Aiguo Lv, Hui Miao, Li Guo, Shujun Zhang, Cheng Pei, Xiaojuan Fan, Jianqin Lei, Ting Wei, Junguo Duan, Chun Liu, Xiaobo Xia, Siqi Xiong, Junhong Li, Benny Lo, Yih Chung Tham, Tien Yin Wong, Ningli Wang, and Wu Yuan(参考訳) 我々は,560,457人から340万枚の眼科画像が予め訓練された基礎モデルであるvisionfmを提案する。 事前トレーニングの後、visionfmは、病気のスクリーニングと診断、疾患の予後、疾患の表現型のサブクラス化、体系的なバイオマーカーと疾患予測など、複数の眼科人工知能(ai)応用を育成するための基盤を提供する。 visionfmの汎用知性は、12の一般的な眼科疾患を共同診断する基礎レベルと中間レベルを持つ眼科医を上回った。 新しい大規模眼科疾患診断ベンチマークデータベースと、新しい大規模セグメンテーションと検出ベンチマークデータベースに基づいて評価され、VisionFMは強力なベースラインディープニューラルネットワークを上回った。 VisionFMで学んだ眼科画像表現は、注目すべき説明可能性を示し、新しい眼科モダリティ、疾患スペクトル、画像装置に強い一般化性を示した。 基礎モデルとして、VisionFMは様々な眼科画像データと異なるデータセットから学ぶ能力を持つ。 プレトレーニングに使用する実データに加えて, この容量を考慮し, 合成眼科画像データを作成し, 利用した。 その結果、視覚的チューリングテストに合格した合成データは、VisionFMの表現学習能力を高め、下流の眼科AIタスクでかなりの性能向上をもたらすことが判明した。 この研究で開発、検証、実証された眼科AIアプリケーション以外にも、VisionFMを基礎として効率的で費用対効果の高い方法で、さらに多くの応用が達成できる。

We present VisionFM, a foundation model pre-trained with 3.4 million ophthalmic images from 560,457 individuals, covering a broad range of ophthalmic diseases, modalities, imaging devices, and demography. After pre-training, VisionFM provides a foundation to foster multiple ophthalmic artificial intelligence (AI) applications, such as disease screening and diagnosis, disease prognosis, subclassification of disease phenotype, and systemic biomarker and disease prediction, with each application enhanced with expert-level intelligence and accuracy. The generalist intelligence of VisionFM outperformed ophthalmologists with basic and intermediate levels in jointly diagnosing 12 common ophthalmic diseases. Evaluated on a new large-scale ophthalmic disease diagnosis benchmark database, as well as a new large-scale segmentation and detection benchmark database, VisionFM outperformed strong baseline deep neural networks. The ophthalmic image representations learned by VisionFM exhibited noteworthy explainability, and demonstrated strong generalizability to new ophthalmic modalities, disease spectrum, and imaging devices. As a foundation model, VisionFM has a large capacity to learn from diverse ophthalmic imaging data and disparate datasets. To be commensurate with this capacity, in addition to the real data used for pre-training, we also generated and leveraged synthetic ophthalmic imaging data. Experimental results revealed that synthetic data that passed visual Turing tests, can also enhance the representation learning capability of VisionFM, leading to substantial performance gains on downstream ophthalmic AI tasks. Beyond the ophthalmic AI applications developed, validated, and demonstrated in this work, substantial further applications can be achieved in an efficient and cost-effective manner using VisionFM as the foundation.
翻訳日:2023-10-12 13:47:56 公開日:2023-10-08
# モデリング力学系のための波形器

Waveformer for modelling dynamical systems ( http://arxiv.org/abs/2310.04990v1 )

ライセンス: Link先を確認
N Navaneeth and Souvik Chakraborty(参考訳) ニューラル作用素は偏微分方程式の族を学習するための強力なツールとして認識されている。 最先端のニューラル演算子は、入力関数と解空間の関数関係を近似し、計算コストを低減し、リアルタイムアプリケーションを可能にする。 しかし、時間依存の問題に取り組む場合、特に長期的な予測の正確さでは不足することが多い。 本研究では,動的システムの学習のための新しい演算子学習手法である「ウェーブフォーマ」を提案する。 提案する波形変換器はウェーブレット変換を利用して解場の空間的多スケール挙動を捉え、トランスフォーマは長地平線力学を捉える。 提案手法の有効性を説明するために,バーガーズ方程式,KS方程式,アレン・カーン方程式,ナビエ・ストークス方程式の4つの数値例を示す。 その結果,提案手法は解演算子を学習する上での波形の能力を示し,提案手法が解演算子を精度良く学習できることを示すとともに,既存の最先端演算子学習アルゴリズムを最大1桁の精度で学習でき,特に外挿領域でその利点を享受できることを示した。

Neural operators have gained recognition as potent tools for learning solutions of a family of partial differential equations. The state-of-the-art neural operators excel at approximating the functional relationship between input functions and the solution space, potentially reducing computational costs and enabling real-time applications. However, they often fall short when tackling time-dependent problems, particularly in delivering accurate long-term predictions. In this work, we propose "waveformer", a novel operator learning approach for learning solutions of dynamical systems. The proposed waveformer exploits wavelet transform to capture the spatial multi-scale behavior of the solution field and transformers for capturing the long horizon dynamics. We present four numerical examples involving Burgers's equation, KS-equation, Allen Cahn equation, and Navier Stokes equation to illustrate the efficacy of the proposed approach. Results obtained indicate the capability of the proposed waveformer in learning the solution operator and show that the proposed Waveformer can learn the solution operator with high accuracy, outperforming existing state-of-the-art operator learning algorithms by up to an order, with its advantage particularly visible in the extrapolation region
翻訳日:2023-10-12 13:45:43 公開日:2023-10-08
# 量子コンピュータ上の資源効率のよいブール関数解法

Resource Efficient Boolean Function Solver on Quantum Computer ( http://arxiv.org/abs/2310.05013v1 )

ライセンス: Link先を確認
Xiang Li, Hanxiang Shen, Weiguo Gao, Yingzhou Li(参考訳) 非線形ブール方程式系は幅広い応用において重要な役割を果たす。 グローバーのアルゴリズムは、量子コンピュータ上の非線形ブール方程式系を解く最もよく知られた量子探索アルゴリズムの一つである。 本稿では,Groverのアルゴリズムフレームワークによる効率向上のための3つの新しい手法を提案する。 Wサイクル回路の構成は、一定数の量子ビットが与えられたブール方程式の解数を増やす再帰的アイデアを導入する。 そして, オラクル回路の深さを低減するため, グリージー圧縮法を提案する。 最後に、ランダム化されたグローバーのアルゴリズムは、反復毎にランダムなオラクルを形成するために方程式のサブセットをランダムに選択し、回路の深さとアンシラキュービットの数をさらに減少させる。 ブール二次方程式の数値結果は,提案手法の効率を示す。

Nonlinear boolean equation systems play an important role in a wide range of applications. Grover's algorithm is one of the best-known quantum search algorithms in solving the nonlinear boolean equation system on quantum computers. In this paper, we propose three novel techniques to improve the efficiency under Grover's algorithm framework. A W-cycle circuit construction introduces a recursive idea to increase the solvable number of boolean equations given a fixed number of qubits. Then, a greedy compression technique is proposed to reduce the oracle circuit depth. Finally, a randomized Grover's algorithm randomly chooses a subset of equations to form a random oracle every iteration, which further reduces the circuit depth and the number of ancilla qubits. Numerical results on boolean quadratic equations demonstrate the efficiency of the proposed techniques.
翻訳日:2023-10-12 13:36:27 公開日:2023-10-08
# ドローンによるスマートホームの異常健康状態の検出

Detecting Abnormal Health Conditions in Smart Home Using a Drone ( http://arxiv.org/abs/2310.05012v1 )

ライセンス: Link先を確認
Pronob Kumar Barman(参考訳) 現在、異常な健康問題の検出は難しいプロセスである。 特に高齢者の転倒は世界中で深刻な問題となっている。 転倒は、無意識、内出血、しばしば死など、致命的な結果をもたらす可能性がある。 落下を検知する実用的で最適なアプローチが、現在懸念されている。 高齢者や他の健康状態の人が独立して生活できるように、視覚に基づく転倒モニタリングが科学者の間で一般的になっている。 追跡、監視、救助のために、無人航空機はビデオまたはイメージセグメンテーションと物体検出方法を使用する。 telloドローンにはカメラが装備されており、この装置は参加者の正常な行動と異常な行動を判断する。 自律落下物体は畳み込みニューラルネットワーク(CNN)分類器を用いて分類される。 その結果,0.9948の精度で落下物体を識別できることがわかった。

Nowadays, detecting aberrant health issues is a difficult process. Falling, especially among the elderly, is a severe concern worldwide. Falls can result in deadly consequences, including unconsciousness, internal bleeding, and often times, death. A practical and optimal, smart approach of detecting falling is currently a concern. The use of vision-based fall monitoring is becoming more common among scientists as it enables senior citizens and those with other health conditions to live independently. For tracking, surveillance, and rescue, unmanned aerial vehicles use video or image segmentation and object detection methods. The Tello drone is equipped with a camera and with this device we determined normal and abnormal behaviors among our participants. The autonomous falling objects are classified using a convolutional neural network (CNN) classifier. The results demonstrate that the systems can identify falling objects with a precision of 0.9948.
翻訳日:2023-10-12 13:36:15 公開日:2023-10-08
# アーキテクチャ、最適化、データを改善するオープンボキャブラリなビデオクリップモデルの構築

Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data ( http://arxiv.org/abs/2310.05010v1 )

ライセンス: Link先を確認
Zuxuan Wu, Zejia Weng, Wujian Peng, Xitong Yang, Ang Li, Larry S. Davis, Yu-Gang Jiang(参考訳) Contrastive Language-Image Pretraining (CLIP) によるゼロショット画像認識における大きな成果にもかかわらず、ゼロショットビデオ認識の可能性を探究する努力は限られている。 本稿では、CLIPを強力なゼロショットビデオ分類器に適用し、テスト中に新しいアクションやイベントを識別できる、シンプルで効果的なフレームワークであるOpen-VCLIP++を提案する。 open-vclip++はクリップを最小限に修正し、ビデオ内の空間的-時間的関係をキャプチャする。 我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを正式に証明した。 この問題に対処するために、トレーニングとテストの両方においてウェイト補間の利点を活用する手法であるInterpolated Weight Optimizationを導入する。 さらに,大規模言語モデルを構築し,詳細な映像記述を作成する。 これらの詳細な説明はさらにビデオ機能と一致しており、CLIPをビデオドメインに転送するのに役立つ。 提案手法は,様々なゼロショット評価プロトコルに従って,広く使用されている3つの行動認識データセット上で評価される。 その結果,本手法は既存の最先端技術を大幅に超えていることがわかった。 具体的には、UCF、HMDB、Kinetics-600データセットにおいて、ゼロショット精度スコアが88.1%、58.7%、81.2%に達し、最も優れた代替手法である8.5%、8.2%、12.3%を上回った。 また,msr-vttビデオテキスト検索データセットのアプローチを評価し,他の手法に比べて微調整データを大幅に削減しつつ,競合するテキスト間およびテキスト間検索性能を提供する。 コードはhttps://github.com/wengzejia1/Open-VCLIPで公開されている。

Despite significant results achieved by Contrastive Language-Image Pretraining (CLIP) in zero-shot image recognition, limited effort has been made exploring its potential for zero-shot video recognition. This paper presents Open-VCLIP++, a simple yet effective framework that adapts CLIP to a strong zero-shot video classifier, capable of identifying novel actions and events during testing. Open-VCLIP++ minimally modifies CLIP to capture spatial-temporal relationships in videos, thereby creating a specialized video classifier while striving for generalization. We formally demonstrate that training Open-VCLIP++ is tantamount to continual learning with zero historical data. To address this problem, we introduce Interpolated Weight Optimization, a technique that leverages the advantages of weight interpolation during both training and testing. Furthermore, we build upon large language models to produce fine-grained video descriptions. These detailed descriptions are further aligned with video features, facilitating a better transfer of CLIP to the video domain. Our approach is evaluated on three widely used action recognition datasets, following a variety of zero-shot evaluation protocols. The results demonstrate that our method surpasses existing state-of-the-art techniques by significant margins. Specifically, we achieve zero-shot accuracy scores of 88.1%, 58.7%, and 81.2% on UCF, HMDB, and Kinetics-600 datasets respectively, outpacing the best-performing alternative methods by 8.5%, 8.2%, and 12.3%. We also evaluate our approach on the MSR-VTT video-text retrieval dataset, where it delivers competitive video-to-text and text-to-video retrieval performance, while utilizing substantially less fine-tuning data compared to other methods. Code is released at https://github.com/wengzejia1/Open-VCLIP.
翻訳日:2023-10-12 13:36:05 公開日:2023-10-08
# WikiIns:自然言語によるテキスト編集のための高品質データセット

WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural Language Instruction ( http://arxiv.org/abs/2310.05009v1 )

ライセンス: Link先を確認
Xiang Chen, Zheng Li, Xiaojun Wan(参考訳) テキスト編集、すなわちテキストの修正や操作のプロセスは、人間の文章作成プロセスにおいて重要なステップである。 本稿では,自然言語によるテキスト編集の制御の問題について検討する。 編集意図と必要な情報を伝達する所定の指示に従って、原文を目標文に改訂する必要がある。 このタスクのために構築されたデータセットは、情報的自然言語命令を持たないため、制限されている。 インフォメーション性は、改訂されたテキストを作成するのに十分な命令に含まれる情報を必要とする。 この制限に対処するため、情報性を改善した高品質なテキスト編集データセットWikiInsを構築し、リリースする。 最初にWikipedia編集履歴データベースを前処理して生データ(WikiIns-Raw)を抽出する。 次に、高品質な検証とテストセットと、小規模のトレーニングセット(WikiIns-Gold)をクラウドソースします。 高品質なアノテートデータセットを用いて,大規模 ``silver'' トレーニングセット (WikiIns-Silver) を生成するための自動アプローチを提案する。 最後に、WikiInsデータセットについて、評価結果と編集意図分析を含む洞察に富んだ分析を行う。 WikiInsの分析と実験結果は,現在進行中のテキスト編集研究を支援する可能性がある。 データセット、ソースコード、アノテーションガイドラインはhttps://github.com/casparswift/wikiinsで入手できる。

Text editing, i.e., the process of modifying or manipulating text, is a crucial step in human writing process. In this paper, we study the problem of controlled text editing by natural language instruction. According to a given instruction that conveys the edit intention and necessary information, an original draft text is required to be revised into a target text. Existing automatically constructed datasets for this task are limited because they do not have informative natural language instruction. The informativeness requires the information contained in the instruction to be enough to produce the revised text. To address this limitation, we build and release WikiIns, a high-quality controlled text editing dataset with improved informativeness. We first preprocess the Wikipedia edit history database to extract the raw data (WikiIns-Raw). Then we crowdsource high-quality validation and test sets, as well as a small-scale training set (WikiIns-Gold). With the high-quality annotated dataset, we further propose automatic approaches to generate a large-scale ``silver'' training set (WikiIns-Silver). Finally, we provide some insightful analysis on our WikiIns dataset, including the evaluation results and the edit intention analysis. Our analysis and the experiment results on WikiIns may assist the ongoing research on text editing. The dataset, source code and annotation guideline are available at https://github.com/CasparSwift/WikiIns.
翻訳日:2023-10-12 13:35:32 公開日:2023-10-08
# 瞬時バンド幅を増強した高感度マイクロ波電気測定

High-Sensitive Microwave Electrometry with Enhanced Instantaneous Bandwidth ( http://arxiv.org/abs/2310.05008v1 )

ライセンス: Link先を確認
Bowen Yang, Yuhan Yan, Xuejie Li, Ling Xiao, Xiaolin Li, L. Q. Chen, Jianliao Deng, Huadong Cheng(参考訳) ライドバーグマイクロ波(MW)センサは、広い動作周波数範囲と優れた電位感度のため、従来のアンテナ技術よりも優れている。 ここでは、リドバーグマイクロ波受信機の感度が62\,\mathrm{nv} \mathrm{cm}^{-1} \mathrm{hz}^{-1/2}$であり、最大10.2\,\mathrm{mhz}$の広帯域帯域幅を示す。 このような優れた性能は、rydberg superheterodyne受信機の6波混合過程における強結合場によって生じる1つのサイドバンド波の増幅によって達成された。 さらに改良可能な、一意に拡張された瞬時帯域幅と高感度特性を有するシステムは、レーダおよび通信におけるrydbergマイクロ波電計の適用を促進する。

Rydberg microwave (MW) sensors are superior to conventional antenna-based techniques because of their wide operating frequency range and outstanding potential sensitivity. Here, we demonstrate a Rydberg microwave receiver with a high sensitivity of $62\,\mathrm{nV} \mathrm{cm}^{-1} \mathrm{Hz}^{-1/2}$ and broad instantaneous bandwidth of up to $10.2\,\mathrm{MHz}$. Such excellent performance was achieved by the amplification of one generated sideband wave induced by the strong coupling field in the six-wave mixing process of the Rydberg superheterodyne receiver, which was well predicted by our theory. Our system, which possesses a uniquely enhanced instantaneous bandwidth and high-sensitivity features that can be improved further, will promote the application of Rydberg microwave electrometry in radar and communication.
翻訳日:2023-10-12 13:35:13 公開日:2023-10-08
# MinPrompt: Few-shot Question Answeringのためのグラフベースの最小プロンプトデータ拡張

MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering ( http://arxiv.org/abs/2310.05007v1 )

ライセンス: Link先を確認
Xiusi Chen, Jyun-Yu Jiang, Wei-Cheng Chang, Cho-Jui Hsieh, Hsiang-Fu Yu, Wei Wang(参考訳) QA (Few-shot Question answering) は、少数のトレーニングサンプルが利用可能である場合に、機械質問応答において満足な結果を達成することを目的としている。 最近の進歩は、主に訓練済みの大規模言語モデル(LLM)のパワーと特定の設定での微調整に依存している。 事前学習段階はすでに強力な推論能力を持つLLMを搭載しているが、最高の結果を得るためには、特定の領域に適応するように微調整する必要がある。 本稿では,最適調整のための最も有益なデータを選択することで,オープンドメインqaタスクの精度を比較,あるいはさらに精度良く調整プロセスの効率を向上させることを提案する。 近似グラフアルゴリズムと教師なし質問生成に基づく,オープンドメインqaのための最小データ拡張フレームワークであるminpromptを提案する。 原文をグラフ構造に変換し、異なる実文間の接続を構築する。次にグラフアルゴリズムを適用して、原文の最も多くの情報をカバーするのに必要な最小の文集合を識別します。 次に、識別文サブセットに基づいてqaペアを生成し、選択した文のモデルを訓練して最終モデルを得る。 いくつかのベンチマークデータセットと理論的分析の結果から、minpromptは高い効率でベースラインと同等または優れた結果を達成でき、f-1スコアを最大27.5%改善できることがわかった。

Few-shot question answering (QA) aims at achieving satisfactory results on machine question answering when only a few training samples are available. Recent advances mostly rely on the power of pre-trained large language models (LLMs) and fine-tuning in specific settings. Although the pre-training stage has already equipped LLMs with powerful reasoning capabilities, LLMs still need to be fine-tuned to adapt to specific domains to achieve the best results. In this paper, we propose to select the most informative data for fine-tuning, thereby improving the efficiency of the fine-tuning process with comparative or even better accuracy on the open-domain QA task. We present MinPrompt, a minimal data augmentation framework for open-domain QA based on an approximate graph algorithm and unsupervised question generation. We transform the raw text into a graph structure to build connections between different factual sentences, then apply graph algorithms to identify the minimal set of sentences needed to cover the most information in the raw text. We then generate QA pairs based on the identified sentence subset and train the model on the selected sentences to obtain the final model. Empirical results on several benchmark datasets and theoretical analysis show that MinPrompt is able to achieve comparable or better results than baselines with a high degree of efficiency, bringing improvements in F-1 scores by up to 27.5%.
翻訳日:2023-10-12 13:34:54 公開日:2023-10-08
# 大規模言語モデルのための自己認識誘導検索拡張

Self-Knowledge Guided Retrieval Augmentation for Large Language Models ( http://arxiv.org/abs/2310.05002v1 )

ライセンス: Link先を確認
Yile Wang, Peng Li, Maosong Sun, Yang Liu(参考訳) 大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。 この成功にもかかわらず、LLMのパラメータに格納されている知識はいまだ不完全であり、計算コストのために更新が困難である。 補完として、検索ベース手法は非パラメトリックな世界知識を提供し、質問応答などのタスクのパフォーマンスを向上させることができる。 しかし,検索した知識は必ずしも役に立たず,時折元の応答に悪影響を及ぼすことさえある。 内的知識と外的世界知識の両面をよりよく活用するために,自己知識(Self-Knowledge guided Retrieval augmentation, SKR)と呼ばれる,モデルが知っていることを認識し,知らないことを認識できる能力の抽出と,新たな質問に対処する際の外部リソースをLLMが参照できる簡易かつ効果的な手法を提案する。 InstructGPT または ChatGPT を用いて,SKR を複数のデータセット上で評価し,チェーン・オブ・ソート法および完全検索法より優れていることを示す。

Large language models (LLMs) have shown superior performance without task-specific fine-tuning. Despite the success, the knowledge stored in the parameters of LLMs could still be incomplete and difficult to update due to the computational costs. As complementary, retrieval-based methods can offer non-parametric world knowledge and improve the performance on tasks such as question answering. However, we find that the retrieved knowledge does not always help and even has a negative impact on original responses occasionally. To better make use of both internal knowledge and external world knowledge, we investigate eliciting the model's ability to recognize what they know and do not know (which is also called self-knowledge) and propose Self-Knowledge guided Retrieval augmentation (SKR), a simple yet effective method which can let LLMs refer to the questions they have previously encountered and adaptively call for external resources when dealing with new questions. We evaluate SKR on multiple datasets and demonstrate that it outperforms chain-of-thought based and fully retrieval-based methods by using either InstructGPT or ChatGPT.
翻訳日:2023-10-12 13:34:30 公開日:2023-10-08
# 強化ポリシー勾配アルゴリズムの再検討

The Reinforce Policy Gradient Algorithm Revisited ( http://arxiv.org/abs/2310.05000v1 )

ライセンス: Link先を確認
Shalabh Bhatnagar(参考訳) 我々は,強化ポリシー勾配アルゴリズムを文献から再検討する。 このアルゴリズムは、通常、目標状態(エピソディックタスクの場合のように)に到達したときの終了または所定の再帰状態(継続タスクの場合)への訪問の瞬間から得られるランダムな長さのエピソードで得られるコストのリターンで動作する。 本稿では,基本アルゴリズムの大幅な拡張を提案する。 乱数探索手法のクラスに適応して,摂動パラメータ上の関数測定値を用いてポリシー勾配を推定する。 これは無限の状態と作用空間を持つ系において利点があり、Reinforceアルゴリズムの収束を証明するのに必要となる規則性要件のいくつかを緩和する。 それにもかかわらず、我々は性能目標自体を用いてパフォーマンス目標の勾配を推定するが(サンプル勾配ではなく)、アルゴリズムは局所最小の近傍に収束する。 この新しいアルゴリズムの収束性の証明も提供する。

We revisit the Reinforce policy gradient algorithm from the literature. Note that this algorithm typically works with cost returns obtained over random length episodes obtained from either termination upon reaching a goal state (as with episodic tasks) or from instants of visit to a prescribed recurrent state (in the case of continuing tasks). We propose a major enhancement to the basic algorithm. We estimate the policy gradient using a function measurement over a perturbed parameter by appealing to a class of random search approaches. This has advantages in the case of systems with infinite state and action spaces as it relax some of the regularity requirements that would otherwise be needed for proving convergence of the Reinforce algorithm. Nonetheless, we observe that even though we estimate the gradient of the performance objective using the performance objective itself (and not via the sample gradient), the algorithm converges to a neighborhood of a local minimum. We also provide a proof of convergence for this new algorithm.
翻訳日:2023-10-12 13:34:11 公開日:2023-10-08
# セマンティクスセグメンテーションのための低分解能セルフアテンション

Low-Resolution Self-Attention for Semantic Segmentation ( http://arxiv.org/abs/2310.05026v1 )

ライセンス: Link先を確認
Yu-Huan Wu, Shi-Chen Zhang, Yun Liu, Le Zhang, Xin Zhan, Daquan Zhou, Jiashi Feng, Ming-Ming Cheng, Liangli Zhen(参考訳) セマンティックセグメンテーションタスクは、自然にピクセルワイドセグメンテーションのための高解像度情報とクラス予測のためのグローバルコンテキスト情報を必要とする。 既存の視覚変換器は有望な性能を示すが、高解像度のコンテキストモデリングを利用することが多い。 本研究では,従来の知恵に挑戦し,グローバルコンテキストを計算コストを大幅に削減するLRSA(Low-Resolution Self-Attention)機構を導入する。 提案手法では,入力画像の解像度によらず,固定低解像度空間における自己アテンションを計算し,高分解能空間の細部をキャプチャする3×3深度畳み込みを付加する。 本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。 ADE20K、COCO-Stuff、Cityscapesのデータセットに関する大規模な実験は、LRFormerが最先端のモデルより優れていることを示している。 コードはhttps://github.com/yuhuan-wu/LRFormer.comから入手できる。

Semantic segmentation tasks naturally require high-resolution information for pixel-wise segmentation and global context information for class prediction. While existing vision transformers demonstrate promising performance, they often utilize high resolution context modeling, resulting in a computational bottleneck. In this work, we challenge conventional wisdom and introduce the Low-Resolution Self-Attention (LRSA) mechanism to capture global context at a significantly reduced computational cost. Our approach involves computing self-attention in a fixed low-resolution space regardless of the input image's resolution, with additional 3x3 depth-wise convolutions to capture fine details in the high-resolution space. We demonstrate the effectiveness of our LRSA approach by building the LRFormer, a vision transformer with an encoder-decoder structure. Extensive experiments on the ADE20K, COCO-Stuff, and Cityscapes datasets demonstrate that LRFormer outperforms state-of-the-art models. The code will be made available at https://github.com/yuhuan-wu/LRFormer.
翻訳日:2023-10-12 13:27:15 公開日:2023-10-08
# Synslator: オンライン学習のための対話型機械翻訳ツール

Synslator: An Interactive Machine Translation Tool with Online Learning ( http://arxiv.org/abs/2310.05025v1 )

ライセンス: Link先を確認
Jiayi Wang, Ke Wang, Fengming Zhou, Chengyu Wang, Zhiyong Fu, Zeyu Feng, Yu Zhao, Yuqi Zhang(参考訳) 対話型機械翻訳(IMT)は、機械翻訳システムと人間の翻訳者が協調して高品質な翻訳を行うコンピュータ支援翻訳パラダイムの進展として登場した。 本稿では、IMTをサポートするだけでなく、リアルタイム翻訳記憶を用いたオンライン学習にも長けているユーザフレンドリーなコンピュータ支援翻訳(CAT)ツールであるSynslatorを紹介する。 CATサービスのさまざまなデプロイメント環境に対応するため、Synslatorは2つの異なるニューラルネットワークモデルを統合して、オンライン学習のための翻訳メモリを処理する。 さらにシステムでは,対話型モードでの翻訳の流動性を高めるために,言語モデルを採用している。 評価では,翻訳モデルによるオンライン学習の有効性を確認し,Synslatorのインタラクティブ機能により,編集後の効率が13%向上したことを確認した。 チュートリアルビデオは、https://youtu.be/K0vRsb2lTt8で公開されている。

Interactive machine translation (IMT) has emerged as a progression of the computer-aided translation paradigm, where the machine translation system and the human translator collaborate to produce high-quality translations. This paper introduces Synslator, a user-friendly computer-aided translation (CAT) tool that not only supports IMT, but is adept at online learning with real-time translation memories. To accommodate various deployment environments for CAT services, Synslator integrates two different neural translation models to handle translation memories for online learning. Additionally, the system employs a language model to enhance the fluency of translations in an interactive mode. In evaluation, we have confirmed the effectiveness of online learning through the translation models, and have observed a 13% increase in post-editing efficiency with the interactive functionalities of Synslator. A tutorial video is available at:https://youtu.be/K0vRsb2lTt8.
翻訳日:2023-10-12 13:26:56 公開日:2023-10-08
# 仮想トライオンのためのシングルステージワート衣服学習と意味的・文脈的注意機能融合

Single Stage Warped Cloth Learning and Semantic-Contextual Attention Feature Fusion for Virtual TryOn ( http://arxiv.org/abs/2310.05024v1 )

ライセンス: Link先を確認
Sanhita Pathak, Vinay Kaushik and Brejesh Lall(参考訳) 画像ベースの仮想試着は、ショップの衣服を着ている人の画像に合わせることを目的としている。 対象の衣服を人物画像の対応する身体部分と整列させるガーメント・ワープは、この目標を達成するための重要なステップである。 既存の手法では、服の反り、人体合成、トリオン生成を別々に扱うために多段階のフレームワークを使うことが多い。 明示的な多段階学習なしに暗黙的に同じことを学習する新しいシングルステージフレームワークを提案する。 提案手法は,衣服と人物の特徴融合のための新しい意味的・文脈的融合アテンションモジュールを用い,目的のポーズキーポイントからの効率的かつ現実的な布の反りと身体合成を可能にする。 複数のサンプルフロー場を融合させる軽量な線形アテンションフレームワークを導入することにより,従来手法のミスアライメントやアーティファクトにも対処する。 乱れた衣服と試着結果の同時学習を実現するために,乱れた衣服学習モジュールを導入する。 WCLMは、セグメント化されたワープされた衣服を、単一ステージのパラダイムで運用する真実として使用している。 提案手法は,仮想試行法の品質と効率を大幅に向上させ,より信頼性が高く現実的な仮想試行体験を提供する。 本手法をVITONデータセット上で評価し,質的,定量的両指標の両面から最先端の性能を示す。

Image-based virtual try-on aims to fit an in-shop garment onto a clothed person image. Garment warping, which aligns the target garment with the corresponding body parts in the person image, is a crucial step in achieving this goal. Existing methods often use multi-stage frameworks to handle clothes warping, person body synthesis and tryon generation separately or rely on noisy intermediate parser-based labels. We propose a novel single-stage framework that implicitly learns the same without explicit multi-stage learning. Our approach utilizes a novel semantic-contextual fusion attention module for garment-person feature fusion, enabling efficient and realistic cloth warping and body synthesis from target pose keypoints. By introducing a lightweight linear attention framework that attends to garment regions and fuses multiple sampled flow fields, we also address misalignment and artifacts present in previous methods. To achieve simultaneous learning of warped garment and try-on results, we introduce a Warped Cloth Learning Module. WCLM uses segmented warped garments as ground truth, operating within a single-stage paradigm. Our proposed approach significantly improves the quality and efficiency of virtual try-on methods, providing users with a more reliable and realistic virtual try-on experience. We evaluate our method on the VITON dataset and demonstrate its state-of-the-art performance in terms of both qualitative and quantitative metrics.
翻訳日:2023-10-12 13:26:40 公開日:2023-10-08
# 足ロボットのための完全スパイクニューラルネットワーク

Fully Spiking Neural Network for Legged Robots ( http://arxiv.org/abs/2310.05022v1 )

ライセンス: Link先を確認
Xiaoyang Jiang, Qiang Zhang, Jingkai Sun, Renjing Xu(参考訳) 近年,深層強化学習に基づく脚型ロボットが目覚ましい進歩を遂げている。 四足歩行ロボットは複雑な環境で挑戦的なタスクを完了させる能力を示しており、人間を助ける現実世界のシナリオに展開されてきた。 同時に、二足歩行ロボットとヒューマノイドロボットは様々な要求課題においてブレークスルーを達成した。 現在の強化学習方法は、多様なロボット本体と歴史的情報を利用して行動を行うことができる。 しかし、以前の研究では、ネットワーク推論の速度とエネルギー消費量、およびニューラルネットワーク自体の生物学的意義を強調していない。 使用されるネットワークのほとんどは、多層パーセプトロン(MLP)を利用する従来のニューラルネットワークである。 本稿では,新しいスパイキングニューラルネットワーク(SNN)を脚付きロボットの処理に適用し,シミュレーションされた地形における優れた結果を得た。 SNNは、推論速度とエネルギー消費の観点から、従来のニューラルネットワークよりも自然な優位性を持ち、身体知覚信号のパルス波形処理により、生物学的解釈性が向上する。 我々の知る限りでは、脚のあるロボットにSNNを実装するのはこれが初めてだ。

In recent years, legged robots based on deep reinforcement learning have made remarkable progress. Quadruped robots have demonstrated the ability to complete challenging tasks in complex environments and have been deployed in real-world scenarios to assist humans. Simultaneously, bipedal and humanoid robots have achieved breakthroughs in various demanding tasks. Current reinforcement learning methods can utilize diverse robot bodies and historical information to perform actions. However, prior research has not emphasized the speed and energy consumption of network inference, as well as the biological significance of the neural networks themselves. Most of the networks employed are traditional artificial neural networks that utilize multilayer perceptrons (MLP). In this paper, we successfully apply a novel Spiking Neural Network (SNN) to process legged robots, achieving outstanding results across a range of simulated terrains. SNN holds a natural advantage over traditional neural networks in terms of inference speed and energy consumption, and their pulse-form processing of body perception signals offers improved biological interpretability. To the best of our knowledge, this is the first work to implement SNN in legged robots.
翻訳日:2023-10-12 13:26:15 公開日:2023-10-08
# 圧縮オンラインシンクホーン

Compressed online Sinkhorn ( http://arxiv.org/abs/2310.05019v1 )

ライセンス: Link先を確認
Fengpei Wang and Clarice Poon and Tony Shardlow(参考訳) 最適輸送(ot)距離、特にエントロピー正規化ot距離の使用は、機械学習やデータサイエンスの多くの分野において、ますます一般的な評価基準となっている。 彼らの用途は、シンクホーンアルゴリズムのような効率的なアルゴリズムが利用できることによる。 大規模データ処理におけるシンクホーンアルゴリズムの欠点の1つは、Sinkhornアルゴリズムを離散確率測度に適用する前に、まず確率分布から大量のデータを描画する2相法であることである。 最近では、連続的なデータストリームを直接処理するSinkhornの確率的なバージョンの開発がいくつか行われている。 本稿では,最近導入された[Mensch and Peyr\'e, 2020]のオンラインシンクホーンアルゴリズムを再考する。 オンラインシンクホーンアルゴリズムの収束解析を改善することで、特定のパラメータ選択下での以前のレートよりも高速に得られる新しいレートを得ることができます。 また,結果のシャープさを検証するために,数値的な結果も提示する。 第二に,オンラインシンクホーンアルゴリズムと圧縮手法を組み合わせた圧縮オンラインシンクホーンアルゴリズムを提案する。 我々は,実用的な数値ゲインを示す数値実験と,手法の効率性に関する理論的保証を提供する。

The use of optimal transport (OT) distances, and in particular entropic-regularised OT distances, is an increasingly popular evaluation metric in many areas of machine learning and data science. Their use has largely been driven by the availability of efficient algorithms such as the Sinkhorn algorithm. One of the drawbacks of the Sinkhorn algorithm for large-scale data processing is that it is a two-phase method, where one first draws a large stream of data from the probability distributions, before applying the Sinkhorn algorithm to the discrete probability measures. More recently, there have been several works developing stochastic versions of Sinkhorn that directly handle continuous streams of data. In this work, we revisit the recently introduced online Sinkhorn algorithm of [Mensch and Peyr\'e, 2020]. Our contributions are twofold: We improve the convergence analysis for the online Sinkhorn algorithm, the new rate that we obtain is faster than the previous rate under certain parameter choices. We also present numerical results to verify the sharpness of our result. Secondly, we propose the compressed online Sinkhorn algorithm which combines measure compression techniques with the online Sinkhorn algorithm. We provide numerical experiments to show practical numerical gains, as well as theoretical guarantees on the efficiency of our approach.
翻訳日:2023-10-12 13:25:59 公開日:2023-10-08
# Human-in-the-loop: 自動電子顕微鏡における機械学習の未来

Human-in-the-loop: The future of Machine Learning in Automated Electron Microscopy ( http://arxiv.org/abs/2310.05018v1 )

ライセンス: Link先を確認
Sergei V. Kalinin, Yongtao Liu, Arpan Biswas, Gerd Duscher, Utkarsh Pratiush, Kevin Roccapriore, Maxim Ziatdinov and Rama Vasudevan(参考訳) 機械学習手法は、非ノイズ化、セマンティックセグメンテーション、データ取得後の次元化のための電子顕微鏡コミュニティで徐々に受け入れられている。 メジャーな機器メーカーによるAPIの導入により、データ分析だけでなく、顕微鏡操作のリアルタイム意思決定やフィードバックにもMLワークフローを顕微鏡にデプロイできるようになった。 しかし、リアルタイムMLのユースケースは依然として極めて少ない。 本稿では,mlに基づく能動実験の設計において考慮すべき事項について論じ,今後数年間の戦略がhae(human-in-the-loop automated experiment)であることを示す。 このパラダイムでは、機械学習エージェントがビームの位置と画像と分光の取得機能を直接制御し、人間のオペレーターがシステムの実空間と特徴空間における実験の進行を監視し、MLエージェントのポリシーを調整して、特定の目的に向けて実験を行う。

Machine learning methods are progressively gaining acceptance in the electron microscopy community for de-noising, semantic segmentation, and dimensionality reduction of data post-acquisition. The introduction of the APIs by major instrument manufacturers now allows the deployment of ML workflows in microscopes, not only for data analytics but also for real-time decision-making and feedback for microscope operation. However, the number of use cases for real-time ML remains remarkably small. Here, we discuss some considerations in designing ML-based active experiments and pose that the likely strategy for the next several years will be human-in-the-loop automated experiments (hAE). In this paradigm, the ML learning agent directly controls beam position and image and spectroscopy acquisition functions, and human operator monitors experiment progression in real- and feature space of the system and tunes the policies of the ML agent to steer the experiment towards specific objectives.
翻訳日:2023-10-12 13:25:41 公開日:2023-10-08
# dunkl型微分項による一般化フォッカー・プランク方程式

The Generalized Fokker-Planck Equation in terms of Dunkl-type Derivatives ( http://arxiv.org/abs/2310.05017v1 )

ライセンス: Link先を確認
R. D. Mota, D. Ojeda-Guill\'en and M. A. Xicot\'encatl(参考訳) 本研究では、(1+1)次元のフォッカー・プランク方程式の2つの異なる一般化を導入し、空間微分を反射作用素を含む一般化ダンクル型微分に置き換える。 これらの結果の応用として、単純かつシフトした高調波発振器に対する一般化されたフォッカー・プランク方程式を正確に解く。

In this work we introduce two different generalizations of the Fokker-Planck equation in (1+1) dimensions by replacing the spatial derivatives in terms of generalized Dunkl-type derivatives involving reflection operators. As applications of these results, we solve exactly the generalized Fokker-Planck equations for the simple and the shifted harmonic oscillators.
翻訳日:2023-10-12 13:25:24 公開日:2023-10-08
# 1+1$次元Dunkl-Fokker-Planck方程式とシフト調和振動子

The Dunkl-Fokker-Planck Equation in $1+1$ Dimensions and the Shifted Harmonic Oscillator ( http://arxiv.org/abs/2310.05016v1 )

ライセンス: Link先を確認
R. D. Mota, D. Ojeda-Guill\'en, and M. A. Xicot\'encatl(参考訳) 空間微分をダンケル微分に置き換えることで、フォッカー・プランク方程式を (1+1) 次元で一般化する。 Dunkl-Fokker-Planck固有値方程式を求め、シフト振動子に対して解いた。 さらに,ドリフト関数が奇数である場合には,最近開発されたwigner-dunkl超対称性の結果に還元する。

By replacing the spatial derivative with the Dunkl derivative, we generalize the Fokker-Planck equation in (1+1) dimensions. We obtain the Dunkl-Fokker-Planck eigenvalues equation and solve it for the shifted oscillator. Furthermore, when the drift function is odd, we reduce our results to those of the recently developed Wigner-Dunkl supersymmetry.
翻訳日:2023-10-12 13:25:17 公開日:2023-10-08
# 不確実性関係の再考

Uncertainty relations revisited ( http://arxiv.org/abs/2310.05039v1 )

ライセンス: Link先を確認
Berthold-Georg Englert(参考訳) 量子力学の入門コースは通常、不確実性関係(典型的にはロバートソンが導いた不等式)に関する講義を含む。 For the benefit of the lecturers, we present a unified approach -- well suited for undergraduate teaching -- for deriving all standard uncertainty relations: those for products of variances by Kennard, Robertson, and Schr\"odinger, as well as those for sums of variances by Maccone and Pati. We also give a brief review of the early history of this topic and try to answer why the use of variances for quantifying uncertainty is so widespread, while alternatives are available that can be more natural and more fitting. It is common to regard the states that saturate the Robertson inequality as "minimum uncertainty states" although they do not minimize the variance of one observable, given the variance of another, incompatible observable. この目的を達成する状態は異なり、体系的に見ることができる。

Introductory courses on quantum mechanics usually include lectures on uncertainty relations, typically the inequality derived by Robertson and, perhaps, other statements. For the benefit of the lecturers, we present a unified approach -- well suited for undergraduate teaching -- for deriving all standard uncertainty relations: those for products of variances by Kennard, Robertson, and Schr\"odinger, as well as those for sums of variances by Maccone and Pati. We also give a brief review of the early history of this topic and try to answer why the use of variances for quantifying uncertainty is so widespread, while alternatives are available that can be more natural and more fitting. It is common to regard the states that saturate the Robertson inequality as "minimum uncertainty states" although they do not minimize the variance of one observable, given the variance of another, incompatible observable. The states that achieve this objective are different and can be found systematically.
翻訳日:2023-10-12 13:17:39 公開日:2023-10-08
# テラヘルツメッシュバックホールネットワークにおける層間設計に基づく深層強化学習

Deep Reinforcement Learning Based Cross-Layer Design in Terahertz Mesh Backhaul Networks ( http://arxiv.org/abs/2310.05034v1 )

ライセンス: Link先を確認
Zhifeng Hu, Chong Han, Xudong Wang(参考訳) 超高速データレートとフレキシブルな再構成性をサポートするTerahertz(THz)メッシュネットワークは、IAB(Integrated Access and Backhaul)を強化する次世代無線バックホールシステムにとって魅力的なものだ。 THzメッシュバックホールネットワークでは、動的トラフィック要求と高い指向性と高非線形(NLoS)パス損失に起因するリンク障害により、効率的なクロスレイヤールーティングと長期リソース割り当ては依然として未解決の問題である。 さらに、予測不能なデータトラフィックとNP-hard性質の混合整数プログラミング特性は、効果的なルーティングと長期リソース割り当て設計にさらに挑戦する。 本稿では,動的トラフィック要求と突発的リンク障害を考慮したthzメッシュバックホールネットワーク(deflect)におけるディープ強化学習(drl)に基づくクロスレイヤー設計を提案する。 DEFLECTでは、エネルギーとサブアレイの使用に関するリソース効率(RE)の向上を促進するために、ヒューリスティックなルーティングメトリックが最初に考案されている。 さらに,drlを用いた資源割当アルゴリズムを開発し,破損リンクからの長期再帰と高速リカバリを実現する。 特にDRL法では, マルチタスク構造が協調力とサブアレイアロケーションに有効である。 さらに,レバレッジド階層アーキテクチャは,各基地局のリソース割り当てと学習知識の転送を実現し,高速なリカバリを実現する。 シミュレーションの結果、オフセットルーティングは最小のホップカウントメトリックに比べてリソース消費が少ないことがわかった。 さらに,パケットロスや第2レベルの遅延を引き起こす従来のDRL法とは異なり, DEFLECT DRLはパケットロスやミリ秒レベルの遅延を伴わない長期REの最大化を実現し,1秒以内のリンクから資源効率の高いバックホールを回復する。

Supporting ultra-high data rates and flexible reconfigurability, Terahertz (THz) mesh networks are attractive for next-generation wireless backhaul systems that empower the integrated access and backhaul (IAB). In THz mesh backhaul networks, the efficient cross-layer routing and long-term resource allocation is yet an open problem due to dynamic traffic demands as well as possible link failures caused by the high directivity and high non-line-of-sight (NLoS) path loss of THz spectrum. In addition, unpredictable data traffic and the mixed integer programming property with the NP-hard nature further challenge the effective routing and long-term resource allocation design. In this paper, a deep reinforcement learning (DRL) based cross-layer design in THz mesh backhaul networks (DEFLECT) is proposed, by considering dynamic traffic demands and possible sudden link failures. In DEFLECT, a heuristic routing metric is first devised to facilitate resource efficiency (RE) enhancement regarding energy and sub-array usages. Furthermore, a DRL based resource allocation algorithm is developed to realize long-term RE maximization and fast recovery from broken links. Specifically in the DRL method, the exploited multi-task structure cooperatively benefits joint power and sub-array allocation. Additionally, the leveraged hierarchical architecture realizes tailored resource allocation for each base station and learned knowledge transfer for fast recovery. Simulation results show that DEFLECT routing consumes less resource, compared to the minimal hop-count metric. Moreover, unlike conventional DRL methods causing packet loss and second-level latency, DEFLECT DRL realizes the long-term RE maximization with no packet loss and millisecond-level latency, and recovers resource-efficient backhaul from broken links within 1s.
翻訳日:2023-10-12 13:15:51 公開日:2023-10-08
# Counter Turing Test CT^2: AI生成テキスト検出は、あなたが考えるほど簡単ではない -- AI検出可能性指数の導入

Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as You May Think -- Introducing AI Detectability Index ( http://arxiv.org/abs/2310.05030v1 )

ライセンス: Link先を確認
Megha Chakraborty, S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Krish Sharma, Niyar R Barman, Chandan Gupta, Shreya Gautam, Tanay Kumar, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das(参考訳) 有能なChatGPTの台頭に伴い、AI生成テキストのリスクと結果が急増している。 AI生成物の所有権に関する必然的な問題に対処するため、米国著作権庁は「作品の伝統的な著作物が機械によって生産された場合、作品は人間の著作物に欠け、事務所はそれを登録しない」という声明を発表した。 さらに、米国とEU政府は最近、AIの規制フレームワークに関する最初の提案を起草した。 AI生成型テキスト検出(AGTD)は、AI生成型テキスト検出(AGTD)におけるこのサイノーゾ的なスポットライトから、研究においてすぐに注目を集めているトピックとして現れ、いくつかの初期手法が提案され、間もなく検出をバイパスする技術が出現する。 本稿では,既存のAGTD手法のロバスト性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT^2)を紹介する。 調査対象のAGTD法が脆弱であることは明らかです。 AI開発を規制するための政策決定に関する広範な議論の中で、LLMが生成するコンテンツの検出可能性を評価することが最も重要である。 そこで本研究では,LLMの評価とランク付けを容易にする定量スペクトルを確立するために,AI検出可能性指数(AI Detectability Index, ADI)を提案する。 われわれは15個の現代LLMを徹底的に検討し、より大きなLLMはADIが高い傾向を示し、小さいLLMに比べて検出しにくいことを示した。 ADIはより広範なNLPコミュニティのツールとして大きな価値があり、AI関連の政策決定においてルーリックとして機能する可能性があると強く信じています。

With the rise of prolific ChatGPT, the risk and consequences of AI-generated text has increased alarmingly. To address the inevitable question of ownership attribution for AI-generated artifacts, the US Copyright Office released a statement stating that 'If a work's traditional elements of authorship were produced by a machine, the work lacks human authorship and the Office will not register it'. Furthermore, both the US and the EU governments have recently drafted their initial proposals regarding the regulatory framework for AI. Given this cynosural spotlight on generative AI, AI-generated text detection (AGTD) has emerged as a topic that has already received immediate attention in research, with some initial methods having been proposed, soon followed by emergence of techniques to bypass detection. This paper introduces the Counter Turing Test (CT^2), a benchmark consisting of techniques aiming to offer a comprehensive evaluation of the robustness of existing AGTD techniques. Our empirical findings unequivocally highlight the fragility of the proposed AGTD methods under scrutiny. Amidst the extensive deliberations on policy-making for regulating AI development, it is of utmost importance to assess the detectability of content generated by LLMs. Thus, to establish a quantifiable spectrum facilitating the evaluation and ranking of LLMs according to their detectability levels, we propose the AI Detectability Index (ADI). We conduct a thorough examination of 15 contemporary LLMs, empirically demonstrating that larger LLMs tend to have a higher ADI, indicating they are less detectable compared to smaller LLMs. We firmly believe that ADI holds significant value as a tool for the wider NLP community, with the potential to serve as a rubric in AI-related policy-making.
翻訳日:2023-10-12 13:15:18 公開日:2023-10-08
# メモリ迷路を歩き去る:インタラクティブな読書を通してコンテキスト制限を超えて

Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading ( http://arxiv.org/abs/2310.05029v1 )

ライセンス: Link先を確認
Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz(参考訳) 大規模言語モデル(LLM)は、全てのトークンを一度に処理し比較する自己保持機構の有効性のため、大きな進歩を遂げている。 しかし、このメカニズムには根本的な問題がある -- 所定のコンテキストウィンドウは制限される。 位置埋め込みの補間、リピートの使用、長いシーケンスの本質部分の選択的な検索などを通じてコンテキストウィンドウを拡張する試みにもかかわらず、長いテキスト理解は依然として課題である。 そこで本研究では,LLMを対話型エージェントとして扱う代わりに,反復的プロンプトによるテキストの読み方を決定する方法を提案する。 本稿では,まず,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介する。 クエリを受け取ると、モデルは関連する情報を探すためにこのツリーをナビゲートし、十分な情報を集めると応答する。 長文質問応答タスクでは、長いコンテキストウィンドウ、繰り返し、検索を使用するベースラインアプローチよりも優れています。 その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調表示し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。

Large language models (LLMs) have advanced in large strides due to the effectiveness of the self-attention mechanism that processes and compares all tokens at once. However, this mechanism comes with a fundamental issue -- the predetermined context window is bound to be limited. Despite attempts to extend the context window through methods like extrapolating the positional embedding, using recurrence, or selectively retrieving essential parts of the long sequence, long-text understanding continues to be a challenge. We propose an alternative approach which instead treats the LLM as an interactive agent, allowing it to decide how to read the text via iterative prompting. We introduce MemWalker, a method that first processes the long context into a tree of summary nodes. Upon receiving a query, the model navigates this tree in search of relevant information, and responds once it gathers sufficient information. On long-text question answering tasks our method outperforms baseline approaches that use long context windows, recurrence, and retrieval. We show that, beyond effective reading, MemWalker enhances explainability by highlighting the reasoning steps as it interactively reads the text; pinpointing the relevant text segments related to the query.
翻訳日:2023-10-12 13:14:46 公開日:2023-10-08
# FairTune:医療画像解析におけるフェアネスのための最適パラメータ調整

FairTune: Optimizing Parameter Efficient Fine Tuning for Fairness in Medical Image Analysis ( http://arxiv.org/abs/2310.05055v1 )

ライセンス: Link先を確認
Raman Dutt, Ondrej Bohdal, Sotirios A. Tsaftaris, Timothy Hospedales(参考訳) 医用診断などの倫理的に敏感な応用分野において,頑健なグループフェアネス特性を持つトレーニングモデルは重要である。 AIにおける人口統計バイアスを最小化しようとする動きが増えているにもかかわらず、この問題は依然として困難である。 高容量のディープラーニングモデルは、すべてのトレーニングデータをほぼ完璧に適合させ、トレーニング中に完璧な公正性を示すことができます。 この場合、偏見は、部分群間で一般化性能が異なる場合にのみ現れる。 これは、公正な学習に対する二段階の最適化の視点を取る動機となる: 検証の公平性に基づいた学習戦略の最適化。 具体的には、パラメータ効率細調整(PEFT)技術を用いて、トレーニング済みモデルを下流の医療画像タスクに適応するワークフローを効果的に検討する。 より多くのパラメータの更新、関心のあるタスクへの適合性の向上、パラメータの削減、一般化のギャップの低減など、トレードオフがある。 このトレードオフを管理するために、フェアネスに関するPEFTパラメータの選択を最適化するフレームワークであるFairTuneを提案する。 FairTuneが医療画像データセットの公平性を改善することを実証的に示す。

Training models with robust group fairness properties is crucial in ethically sensitive application areas such as medical diagnosis. Despite the growing body of work aiming to minimise demographic bias in AI, this problem remains challenging. A key reason for this challenge is the fairness generalisation gap: High-capacity deep learning models can fit all training data nearly perfectly, and thus also exhibit perfect fairness during training. In this case, bias emerges only during testing when generalisation performance differs across subgroups. This motivates us to take a bi-level optimisation perspective on fair learning: Optimising the learning strategy based on validation fairness. Specifically, we consider the highly effective workflow of adapting pre-trained models to downstream medical imaging tasks using parameter-efficient fine-tuning (PEFT) techniques. There is a trade-off between updating more parameters, enabling a better fit to the task of interest vs. fewer parameters, potentially reducing the generalisation gap. To manage this tradeoff, we propose FairTune, a framework to optimise the choice of PEFT parameters with respect to fairness. We demonstrate empirically that FairTune leads to improved fairness on a range of medical imaging datasets.
翻訳日:2023-10-12 13:07:08 公開日:2023-10-08
# fp3o:パラメータ共有可能なマルチエージェント協調による近位政策最適化の実現

FP3O: Enabling Proximal Policy Optimization in Multi-Agent Cooperation with Parameter-Sharing Versatility ( http://arxiv.org/abs/2310.05053v1 )

ライセンス: Link先を確認
Lang Feng, Dong Xing, Junru Zhang, Gang Pan(参考訳) 既存のマルチエージェントPPOアルゴリズムは、PPOの理論的保証を協調マルチエージェント強化学習(MARL)に拡張する際に、異なるタイプのパラメータ共有と互換性がない。 本稿では,この制限を克服するための協調型MARLのための,新規で汎用なマルチエージェントPPOアルゴリズムを提案する。 提案手法は,アドバンテージ関数の様々な等価分解を用いて複数並列最適化パイプラインを構築する,フルパイプラインパラダイムによって実現される。 この手順は、より一般的な方法でエージェント間の相互接続、すなわちパイプライン間の相互接続を定式化し、様々な種類のパラメータ共有と互換性を持つ。 我々は、政策改善のための確かな理論基盤を提供し、その後いくつかの近似によりフルパイプPPO(FP3O)と呼ばれる実用的なアルゴリズムを開発した。 Multi-Agent MuJoCo タスクと StarCraftII タスクに関する実証的な評価は、FP3O が他の強力なベースラインより優れており、様々なパラメータ共有構成において優れた汎用性を示していることを示している。

Existing multi-agent PPO algorithms lack compatibility with different types of parameter sharing when extending the theoretical guarantee of PPO to cooperative multi-agent reinforcement learning (MARL). In this paper, we propose a novel and versatile multi-agent PPO algorithm for cooperative MARL to overcome this limitation. Our approach is achieved upon the proposed full-pipeline paradigm, which establishes multiple parallel optimization pipelines by employing various equivalent decompositions of the advantage function. This procedure successfully formulates the interconnections among agents in a more general manner, i.e., the interconnections among pipelines, making it compatible with diverse types of parameter sharing. We provide a solid theoretical foundation for policy improvement and subsequently develop a practical algorithm called Full-Pipeline PPO (FP3O) by several approximations. Empirical evaluations on Multi-Agent MuJoCo and StarCraftII tasks demonstrate that FP3O outperforms other strong baselines and exhibits remarkable versatility across various parameter-sharing configurations.
翻訳日:2023-10-12 13:06:50 公開日:2023-10-08
# クリック単価オークションにおけるオンライン学習

Online Learning in Contextual Second-Price Pay-Per-Click Auctions ( http://arxiv.org/abs/2310.05047v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Haipeng Luo(参考訳) そこで我々は,$t$ ラウンドのそれぞれにおいて,学習者がいくつかのコンテキストを広告と共に受け取り,クリックスルー率 (ctr) を推定し,第2価格のペイ・パー・クリックオークションを実行する必要がある,という状況下でのオンライン学習について検討した。 学習者の目標は、彼女の全収入と、常に完璧なCTR予測を行う神託戦略のギャップとして定義される後悔を最小限にすることである。 まず,$\sqrt{t}$-regret が計算効率の悪いアルゴリズムによって得られること,また,従来のマルチアーム付きバンディット問題よりもアルゴリズムが容易ではないこと,が示される。 我々の結果の副産物は、より単純な非文脈設定に対して$\sqrt{T}$-regret 境界であり、任意に大きい逆 CTR 依存を取り除くことで [Feng et al., 2023] の最近の研究を改善している。 そして、近年の効率的な文脈的バンディットアルゴリズムの進歩からアイデアを借りて、2つの実用的な文脈的オークションアルゴリズムを開発する: 1つは楽観的な2乗誤差を持つ指数的重み付けスキームを使い、同じ$\sqrt{T}$-regret境界を維持し、もう1つは単純なエプシロン・グレーディ戦略によって問題をオンライン回帰に還元する。 最後に,合成データセットを用いた実験を行い,アルゴリズムの有効性と優れた性能を示す。

We study online learning in contextual pay-per-click auctions where at each of the $T$ rounds, the learner receives some context along with a set of ads and needs to make an estimate on their click-through rate (CTR) in order to run a second-price pay-per-click auction. The learner's goal is to minimize her regret, defined as the gap between her total revenue and that of an oracle strategy that always makes perfect CTR predictions. We first show that $\sqrt{T}$-regret is obtainable via a computationally inefficient algorithm and that it is unavoidable since our algorithm is no easier than the classical multi-armed bandit problem. A by-product of our results is a $\sqrt{T}$-regret bound for the simpler non-contextual setting, improving upon a recent work of [Feng et al., 2023] by removing the inverse CTR dependency that could be arbitrarily large. Then, borrowing ideas from recent advances on efficient contextual bandit algorithms, we develop two practically efficient contextual auction algorithms: the first one uses the exponential weight scheme with optimistic square errors and maintains the same $\sqrt{T}$-regret bound, while the second one reduces the problem to online regression via a simple epsilon-greedy strategy, albeit with a worse regret bound. Finally, we conduct experiments on a synthetic dataset to showcase the effectiveness and superior performance of our algorithms.
翻訳日:2023-10-12 13:05:46 公開日:2023-10-08
# フェイクニュースにおけるチャットGPTの力の調和 : 生成・検出・説明における深層探査

Harnessing the Power of ChatGPT in Fake News: An In-Depth Exploration in Generation, Detection and Explanation ( http://arxiv.org/abs/2310.05046v1 )

ライセンス: Link先を確認
Yue Huang and Lichao Sun(参考訳) 偽ニュースの広まりは社会に悪影響を及ぼし、その拡散を抑制するための広範な研究に繋がった。 大規模言語モデル(LLMs)における注目すべきマイルストーンとして、ChatGPTはその例外的な自然言語処理能力のために注目されている。 本研究では,ChatGPTのフェイクニュースの生成,説明,検出における熟練度について,次のように詳細に検討する。 生成 -- 偽ニュースのサンプルを生成し、自己評価と人的評価の両面から、これらのサンプルの品質を証明する4つのプロンプト手法を用いる。 説明 -- chatgptの説明に基づいて偽ニュースを特徴付ける9つの機能を取得し、複数の公開データセットにまたがるこれらの要因の分布を分析する。 検出 - 偽ニュースを識別するChatGPTの能力を調べる。 検出一貫性について検討し,その性能向上のための理由認識プロンプト手法を提案する。 われわれの実験では、ChatGPTは偽ニュースを検出するのに満足できる性能を示したが、改善の余地はまだ残っている。 その結果、フェイクニュースの検出効果を高める可能性のある余分な情報をさらに探究する。

The rampant spread of fake news has adversely affected society, resulting in extensive research on curbing its spread. As a notable milestone in large language models (LLMs), ChatGPT has gained significant attention due to its exceptional natural language processing capabilities. In this study, we present a thorough exploration of ChatGPT's proficiency in generating, explaining, and detecting fake news as follows. Generation -- We employ four prompt methods to generate fake news samples and prove the high quality of these samples through both self-assessment and human evaluation. Explanation -- We obtain nine features to characterize fake news based on ChatGPT's explanations and analyze the distribution of these factors across multiple public datasets. Detection -- We examine ChatGPT's capacity to identify fake news. We explore its detection consistency and then propose a reason-aware prompt method to improve its performance. Although our experiments demonstrate that ChatGPT shows commendable performance in detecting fake news, there is still room for its improvement. Consequently, we further probe into the potential extra information that could bolster its effectiveness in detecting fake news.
翻訳日:2023-10-12 13:05:17 公開日:2023-10-08
# デコンボリューション法によるベル型確率分布の量子状態準備

Quantum state preparation for bell-shaped probability distributions using deconvolution methods ( http://arxiv.org/abs/2310.05044v1 )

ライセンス: Link先を確認
Madhav Sharma K.N, Camille de Valk, Ankur Raina, Julian van Velzen(参考訳) 量子系は、量子測定の現象によって確率分布を生成する自然な選択である。 様々な物理現象から自然界で観測されるデータは量子回路を用いてモデル化することができる。 本稿では,量子回路前の前処理ステップとしてデコンボリューションを行うことで確率分布をロードするハイブリッド手法を提案する。 ハイブリッド古典量子ブロックと目標分布からの成果分布の密接度を定量化するために,jensen-shannon距離をコスト関数として用いる。 選択したコスト関数は対称であり、量子回路を使用する前にデコンボリューションステップを改善することができ、回路の深さが全体的に減少する。 デコンボリューションステップはベル形状の確率質量関数をより小さな確率質量関数に分割する。 古典的なステップは、量子加算回路からなる量子ハードウェアにおいて、測定前の最小ステップとして並列データ処理の道を開く。 このアルゴリズムをibm量子シミュレータと27量子ビット量子プロセッサのibmq kolkata上でテストし,ベル形状の異なる2つの分布をロードすることにより,ハイブリッド古典量子アルゴリズムを検証する。 7と15要素PMFをロードします。 (i)標準正規分布及び (ii)ラプラス分布。

Quantum systems are a natural choice for generating probability distributions due to the phenomena of quantum measurements. The data that we observe in nature from various physical phenomena can be modelled using quantum circuits. We present a hybrid approach to loading probability distributions by performing deconvolution as a pre-processing step before the quantum circuit. To quantify the closeness of the distribution of outcomes from the hybrid classical-quantum block and the target distribution, we use the Jensen-Shannon distance as the cost function. The chosen cost function is symmetric and allows us to improve the deconvolution step before the use of quantum circuits leading to an overall reduction of the circuit depth. The deconvolution step consists of splitting a bell-shaped probability mass function into smaller probability mass functions. The classical step paves the way for parallel data processing in the quantum hardware that consists of a quantum adder circuit as the penultimate step before measurement. We test the algorithm on IBM Quantum simulators and IBMQ Kolkata, a 27-qubit quantum processor, and validate the hybrid Classical-Quantum algorithm by loading two different distributions of bell shape. We load 7 and 15-element PMF of (i) Standard Normal distribution and (ii) Laplace distribution.
翻訳日:2023-10-12 13:04:58 公開日:2023-10-08
# Robust-GBDT:ノイズ・ロバスト分類のための新しい勾配ブースティングモデル

Robust-GBDT: A Novel Gradient Boosting Model for Noise-Robust Classification ( http://arxiv.org/abs/2310.05067v1 )

ライセンス: Link先を確認
Jiaqi Luo, Yuedong Quan, Shixin Xu(参考訳) ロバストブースティングアルゴリズムは、分類タスクにおけるラベルノイズに対処する従来のブースティング手法の代替ソリューションとして登場した。 しかし、これらの手法は主にバイナリ分類に重点を置いており、多クラスタスクに適用性を制限する。 さらに、不均衡なデータセット、欠落した値、計算効率といった課題に直面している。 本稿では,先進的なグラディエントブースティング決定木(GBDT)における損失関数,特にニュートン法に基づくGBDTが必ずしもグローバルな凸性を示す必要はないことを確かめる。 代わりに、損失関数は特定の領域内の凸性のみを必要とする。 したがって、これらのGBDTモデルは、非凸ロバスト損失関数の利点を活用でき、ノイズに耐性がある。 この理論的知見に基づいて、ロバストGBDTと呼ばれる新しいノイズロストブースティングモデルを導入し、堅牢な損失を伴う高度なGBDTフレームワークをシームレスに統合する。 さらに,既存のロバスト損失関数を拡張し,クラス不均衡に対処するために設計された新しいロバスト損失関数ロバスト焦点損失を導入する。 結果として、Robust-GBDTはより正確な予測を生成し、特にラベルノイズとクラス不均衡を特徴とするシナリオにおいて、その一般化能力を大幅に向上する。 さらに、Robust-GBDTはユーザフレンドリで、既存のオープンソースコードを容易に統合でき、計算効率を改善しながら複雑なデータセットを効果的に処理できる。 多くの実験により、ロバストGBDTは他のノイズローバスト法よりも優れていることが確認された。

Robust boosting algorithms have emerged as alternative solutions to traditional boosting techniques for addressing label noise in classification tasks. However, these methods have predominantly focused on binary classification, limiting their applicability to multi-class tasks. Furthermore, they encounter challenges with imbalanced datasets, missing values, and computational efficiency. In this paper, we establish that the loss function employed in advanced Gradient Boosting Decision Trees (GBDT), particularly Newton's method-based GBDT, need not necessarily exhibit global convexity. Instead, the loss function only requires convexity within a specific region. Consequently, these GBDT models can leverage the benefits of nonconvex robust loss functions, making them resilient to noise. Building upon this theoretical insight, we introduce a new noise-robust boosting model called Robust-GBDT, which seamlessly integrates the advanced GBDT framework with robust losses. Additionally, we enhance the existing robust loss functions and introduce a novel robust loss function, Robust Focal Loss, designed to address class imbalance. As a result, Robust-GBDT generates more accurate predictions, significantly enhancing its generalization capabilities, especially in scenarios marked by label noise and class imbalance. Furthermore, Robust-GBDT is user-friendly and can easily integrate existing open-source code, enabling it to effectively handle complex datasets while improving computational efficiency. Numerous experiments confirm the superiority of Robust-GBDT over other noise-robust methods.
翻訳日:2023-10-12 12:57:30 公開日:2023-10-08
# 文脈内情報抽出のためのガイドライン学習

Guideline Learning for In-context Information Extraction ( http://arxiv.org/abs/2310.05066v1 )

ライセンス: Link先を確認
Chaoxu Pang, Yixuan Cao, Qiang Ding, Ping Luo(参考訳) 大規模言語モデル(llms)は、パラメータを最適化することなく、単にタスク命令といくつかの入出力例を条件付けするだけで、新しいタスクを実行することができる。 これをICL(In-Context Learning)と呼ぶ。 インコンテキスト情報抽出は、最近研究コミュニティで注目を集めている。 しかし、現在の実験結果は概して準最適である。 これは主に、複雑なタスク設定とさまざまなエッジケースが、長さ制限されたコンテキストで完全に表現することが難しいという事実に起因しています。 本稿では,ガイドライン作成とフォローを学習するインコンテキストieのためのガイドライン学習(gl)フレームワークを提案する。 学習フレーズの間、GLはいくつかのアノテーションから一連のガイドラインを自動的に合成し、推論の間、より良いICLのために有用なガイドラインが検索される。

Large language models (LLMs) can perform a new task by merely conditioning on task instructions and a few input-output examples, without optimizing any parameters. This is called In-Context Learning (ICL). In-context Information Extraction has recently garnered attention in the research community. However, current experiment results are generally suboptimal. We attribute this primarily to the fact that the complex task settings and a variety of edge cases are hard to be fully expressed in the length-limited context. In this paper, we propose a Guideline Learning (GL) framework for In-context IE which learns to generate and follow guidelines. During the learning phrase, GL automatically synthesizes a set of guidelines from a few annotations, and during inference, helpful guidelines are retrieved for better ICL.
翻訳日:2023-10-12 12:57:05 公開日:2023-10-08
# sign.mt: リアルタイム多言語手話翻訳アプリケーション

sign.mt: Real-Time Multilingual Sign Language Translation Application ( http://arxiv.org/abs/2310.05064v1 )

ライセンス: Link先を確認
Amit Moryossef(参考訳) 音声と符号付き言語間のリアルタイム多言語双方向翻訳の先駆的なオープンソースアプリケーションであるsign.mtを提案する。 最先端のオープンソースモデルを利用して、このツールは聴覚と聴覚のコミュニケーションの格差に対処し、話し声から話し声への変換と話し声への変換の両方でシームレスな翻訳を容易にする。 sign.mtは信頼性と無制限の通信をプロットし、オフライン機能を提供する。 カスタマイズ可能な写真リアリスティックな手話アバターを提供することにより、ユーザエンゲージメントをさらに強化し、よりパーソナライズされ、認証されたユーザエクスペリエンスを促進する。 CC BY-NC-SA 4.0 でライセンスされている sign.mt はオープンで包括的なコミュニケーションに向けた重要な一歩である。 アプリは個人や学術的な用途で使用、変更可能で、翻訳APIもサポートしており、幅広いアプリケーションへの統合を促進することができる。 しかし、それは決して完成品ではない。 我々はNLPコミュニティにSign.mtの進化への貢献を依頼する。 より洗練されたモデルの統合、イノベーティブなパイプラインの開発、あるいはユーザエクスペリエンスの改善といったものであれ、あなたのコントリビューションは、このプロジェクトを新たなレベルまで進めることができます。 https://sign.mt.comで公開されており、コミュニケーションを誰にでもアクセスできるようにするため、一緒にできることの証として機能する。

This demo paper presents sign.mt, an open-source application pioneering real-time multilingual bi-directional translation between spoken and signed languages. Harnessing state-of-the-art open-source models, this tool aims to address the communication divide between the hearing and the deaf, facilitating seamless translation in both spoken-to-signed and signed-to-spoken translation directions. Promising reliable and unrestricted communication, sign.mt offers offline functionality, crucial in areas with limited internet connectivity. It further enhances user engagement by offering customizable photo-realistic sign language avatars, thereby encouraging a more personalized and authentic user experience. Licensed under CC BY-NC-SA 4.0, sign.mt signifies an important stride towards open, inclusive communication. The app can be used, and modified for personal and academic uses, and even supports a translation API, fostering integration into a wider range of applications. However, it is by no means a finished product. We invite the NLP community to contribute towards the evolution of sign.mt. Whether it be the integration of more refined models, the development of innovative pipelines, or user experience improvements, your contributions can propel this project to new heights. Available at https://sign.mt, it stands as a testament to what we can achieve together, as we strive to make communication accessible to all.
翻訳日:2023-10-12 12:56:53 公開日:2023-10-08
# Video-CSR:ビジュアル言語モデルのための複雑なビデオダイジェスト生成

Video-CSR: Complex Video Digest Creation for Visual-Language Models ( http://arxiv.org/abs/2310.05060v1 )

ライセンス: Link先を確認
Tingkai Liu, Yunzhe Tao, Haogeng Liu, Qihang Fan, Ding Zhou, Huaibo Huang, Ran He, Hongxia Yang(参考訳) 本稿では,ビデオCSR(Captioning, Summarization, Retrieval)と呼ばれる実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための,新しいタスクと人間の注釈付きデータセットを提案する。 データセットには20~60秒の4.8kyoutubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。 各ビデオクリップは、独立して注釈付きキャプション(1文)と要約(3-10文)に対応する。 データセットとそれに対応するasr情報から選択されたビデオが与えられた場合、映像の視覚と聴覚の両方に基礎を置くキャプションまたは要約生成の視覚言語モデルを評価する。 さらに、要約に基づく検索タスクでは、対応する要約の抜粋が与えられた対象映像の識別を要し、キャプションに基づく検索タスクや要約に基づく検索タスクでもモデルを評価する。 段落長映像要約タスクの斬新な性質を考慮し,既存の評価指標と人間の嗜好との整合性の比較分析を行った。 最後に,ビデオCSRタスクのベースラインとして機能する,競争力のある生成と検索機能を備えた基礎モデルを提案する。 我々は,大規模言語モデルや複雑なマルチモーダルタスクの時代において,ビデオCSRが有用な評価セットとして機能することを目指している。

We present a novel task and human annotated dataset for evaluating the ability for visual-language models to generate captions and summaries for real-world video clips, which we call Video-CSR (Captioning, Summarization and Retrieval). The dataset contains 4.8K YouTube video clips of 20-60 seconds in duration and covers a wide range of topics and interests. Each video clip corresponds to 5 independently annotated captions (1 sentence) and summaries (3-10 sentences). Given any video selected from the dataset and its corresponding ASR information, we evaluate visual-language models on either caption or summary generation that is grounded in both the visual and auditory content of the video. Additionally, models are also evaluated on caption- and summary-based retrieval tasks, where the summary-based retrieval task requires the identification of a target video given excerpts of a corresponding summary. Given the novel nature of the paragraph-length video summarization task, we perform extensive comparative analyses of different existing evaluation metrics and their alignment with human preferences. Finally, we propose a foundation model with competitive generation and retrieval capabilities that serves as a baseline for the Video-CSR task. We aim for Video-CSR to serve as a useful evaluation set in the age of large language models and complex multi-modal tasks.
翻訳日:2023-10-12 12:55:01 公開日:2023-10-08
# 話者適応型口唇読解のための分離可能な隠れ単位寄与の学習

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading ( http://arxiv.org/abs/2310.05058v1 )

ライセンス: Link先を確認
Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen(参考訳) 本稿では,2つの観察結果に動機づけられた唇読解における話者適応法を提案する。 第一に、話者自身の特徴は、顔の少ない画像や浅いネットワークを持つ単一の画像によって常にうまく表現できるが、話し手によって表現される音声内容に関連するきめ細かいダイナミックな特徴は、常に正確に表現するために深いシーケンシャルなネットワークを必要とする。 そこで,我々は浅い層と深い層を話者適応型口唇読解のために異なる扱いをする。 第2に, 話者の独特の特徴(例えば, 口蓋腔, 下顎骨など)が, 異なる単語や発音に対する唇読取性能に様々な影響を与え, 頑健な唇読取特性の適応的増強や抑制が必要であることを観察した。 これら2つの観察に基づいて,話者の特性を生かして,それぞれ浅い層と深い層を対象とする分離可能な隠れ単位寄与を自動的に学習することを提案する。 音声コンテンツの特徴に関する特徴が音声コンテンツ関連特徴よりも強い浅い層に対して,音声コンテンツ機能の向上のために,話者適応機能を導入する。 話者の特徴と音声内容がすべて良好に表現された深い層に対しては,頑健な唇読解のための無関係な雑音を抑えるための話者適応的特徴を導入する。 総合的な分析と比較によって確認されるように,提案手法は既存の手法を一貫して上回っている。 LRW-ID と GRID データセットの評価に加えて,評価のための新しいデータセット CAS-VSR-S68h もリリースし,少数の話者しか利用できないが音声内容が広範かつ多様化した範囲をカバーしている極端な環境で,その性能をさらに評価する。

In this paper, we propose a novel method for speaker adaptation in lip reading, motivated by two observations. Firstly, a speaker's own characteristics can always be portrayed well by his/her few facial images or even a single image with shallow networks, while the fine-grained dynamic features associated with speech content expressed by the talking face always need deep sequential networks to represent accurately. Therefore, we treat the shallow and deep layers differently for speaker adaptive lip reading. Secondly, we observe that a speaker's unique characteristics ( e.g. prominent oral cavity and mandible) have varied effects on lip reading performance for different words and pronunciations, necessitating adaptive enhancement or suppression of the features for robust lip reading. Based on these two observations, we propose to take advantage of the speaker's own characteristics to automatically learn separable hidden unit contributions with different targets for shallow layers and deep layers respectively. For shallow layers where features related to the speaker's characteristics are stronger than the speech content related features, we introduce speaker-adaptive features to learn for enhancing the speech content features. For deep layers where both the speaker's features and the speech content features are all expressed well, we introduce the speaker-adaptive features to learn for suppressing the speech content irrelevant noise for robust lip reading. Our approach consistently outperforms existing methods, as confirmed by comprehensive analysis and comparison across different settings. Besides the evaluation on the popular LRW-ID and GRID datasets, we also release a new dataset for evaluation, CAS-VSR-S68h, to further assess the performance in an extreme setting where just a few speakers are available but the speech content covers a large and diversified range.
翻訳日:2023-10-12 12:54:23 公開日:2023-10-08
# flats: 特徴量比スコアを用いた分布外分布検出の原理

FLatS: Principled Out-of-Distribution Detection with Feature-Based Likelihood Ratio Score ( http://arxiv.org/abs/2310.05083v1 )

ライセンス: Link先を確認
Haowei Lin and Yuntian Gu(参考訳) 実用アプリケーションにおけるNLPモデルでは、アウト・オブ・ディストリビューション(OOD)インスタンスの検出が重要である。 多くのOOD検出方法が存在するが、そのほとんどは経験的である。 理論的解析によって裏付けられた本論文は、テストケース $\boldsymbol{x}$ の "ood-ness" の測定を、アウトディストリビューション $\mathcal p_{\textit{out}}$ とインディストリビューション $\mathcal p_{\textit{in}}$ との確率比を通して提唱する。 我々は、maha や knn のような最先端(sota)の機能に基づく ood 検出法は、分布密度 $p_{\textit{in}}(\boldsymbol{x})$ しか見積もっていないため、準最適であると主張する。 この問題に対処するために,確率比に基づくOOD検出の原理解であるFLatSを提案する。 さらに,FLatS は外部分布密度 $p_{\textit{out}}(\boldsymbol{x})$ Estimation を組み込むことで,他の OOD 検出手法を拡張可能な汎用フレームワークとして機能することを示す。 FLatSは人気のあるベンチマークで新しいSOTAを確立している。 私たちのコードはhttps://github.com/linhaowei1/flatsで公開されています。

Detecting out-of-distribution (OOD) instances is crucial for NLP models in practical applications. Although numerous OOD detection methods exist, most of them are empirical. Backed by theoretical analysis, this paper advocates for the measurement of the "OOD-ness" of a test case $\boldsymbol{x}$ through the likelihood ratio between out-distribution $\mathcal P_{\textit{out}}$ and in-distribution $\mathcal P_{\textit{in}}$. We argue that the state-of-the-art (SOTA) feature-based OOD detection methods, such as Maha and KNN, are suboptimal since they only estimate in-distribution density $p_{\textit{in}}(\boldsymbol{x})$. To address this issue, we propose FLatS, a principled solution for OOD detection based on likelihood ratio. Moreover, we demonstrate that FLatS can serve as a general framework capable of enhancing other OOD detection methods by incorporating out-distribution density $p_{\textit{out}}(\boldsymbol{x})$ estimation. Experiments show that FLatS establishes a new SOTA on popular benchmarks. Our code is publicly available at https://github.com/linhaowei1/FLatS.
翻訳日:2023-10-12 12:47:49 公開日:2023-10-08
# 半教師型医用画像分割のための頭部相互学習

Cross-head mutual Mean-Teaching for semi-supervised medical image segmentation ( http://arxiv.org/abs/2310.05082v1 )

ライセンス: Link先を確認
Wei Li, Ruifeng Bian, Wenyi Zhao, Huihua Yang(参考訳) semi-supervised medical image segmentation (ssmis) は限定されたラベル付きデータと豊富なラベル付きデータを活用することで、かなりの進歩を遂げている。 それにもかかわらず、既存の最先端の手法はラベルのないデータのラベルを正確に予測することの難しさに直面する。 さらに、不正確な予測に摂動を適用することで、一貫した学習をさらに減らす。 これらの問題に対処するために、新しい \textbf{C}ross-head \textbf{m}utual \textbf{m}ean-\textbf{t}eaching Network (CMMT-Net) を提案する。 CMMT-Netは教師学生ネットワークで構成され、共有エンコーダに強弱データ拡張を組み込んで、自己学習と一貫した学習の両方に資金を投入することで、クロスヘッドのコトレーニングを容易にする。 この一貫した学習は、教師ネットワークの平均化と相互仮想対人訓練によって強化され、決定論的かつ高品質な予測につながる。 一貫性トレーニングサンプルの多様性は、Cross-Set CutMixを使用することで向上することができる。 特に、CMMT-Netはデータレベル、機能レベル、ネットワークレベルの摂動を同時に実装し、モデルの多様性と一般化性能を高める。 提案手法は, 既存のSSMIS手法を, 各種半教師付き設定の3つの公開データセット上で一貫して上回っている。 コードとログは \url{https://github.com/Leesoon1984/CMMT-Net} で入手できる。

Semi-supervised medical image segmentation (SSMIS) has witnessed substantial advancements by leveraging limited labeled data and abundant unlabeled data. Nevertheless, existing state-of-the-art methods encounter challenges in accurately predicting labels for the unlabeled data, resulting in disruptive noise during training and susceptibility to erroneous information overfitting. Additionally, applying perturbations to inaccurate predictions further reduces consistent learning. To address these concerns, a novel \textbf{C}ross-head \textbf{m}utual \textbf{m}ean-\textbf{t}eaching Network (CMMT-Net) is proposed to address these issues. The CMMT-Net comprises teacher-student networks and incorporates strong-weak data augmentation within a shared encoder, facilitating cross-head co-training by capitalizing on both self-training and consistent learning. The consistent learning is enhanced by averaging teacher networks and mutual virtual adversarial training, leading to deterministic and higher-quality predictions. The diversity of consistency training samples can be enhanced through the use of Cross-Set CutMix, which also helps mitigate issues related to distribution mismatch. Notably, CMMT-Net simultaneously implements data-level, feature-level, and network-level perturbations, boosting model diversity and generalization performance. The proposed method consistently outperforms existing SSMIS methods on three publicly available datasets across various semi-supervised settings. Code and logs will be available at \url{https://github.com/Leesoon1984/CMMT-Net}.
翻訳日:2023-10-12 12:47:12 公開日:2023-10-08
# ブロックベースの量子化の再検討:サブ8ビットllm推論で重要なのは何か?

Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM Inference? ( http://arxiv.org/abs/2310.05079v1 )

ライセンス: Link先を確認
Cheng Zhang, Jianyi Cheng, Ilia Shumailov, George A. Constantinides, and Yiren Zhao(参考訳) 大規模言語モデル(LLM)の推論には膨大な計算とメモリ資源が必要である。 これらのコストを削減すべく、量子化は有望な解として統合されているが、既存のLLM量子化は主に8ビットに焦点を当てている。 本研究では, LLM層の統計的および学習特性について検討し, LLMの量子化のボトルネックを数値スケーリングオフセットとみなす。 これに対処するために、満員数にまたがるスケーリング係数を共有する一連のメソッドであるllmsに対して、ブロック量子化を適用する。 ブロック量子化は、計算経路で追加の処理をすることなく、演算の観点からのみ数値スケーリングオフセットを効率的に削減する。 ほぼロスレスで量子化された6ビットのLSMは、演算密度が高く、float32ベースラインよりも5\times$メモリ密度が高く、演算密度が2.5\times$、メモリ密度が1.2\times$で、データキャリブレーションや再学習は不要である。 我々はまた、活性化と重量分布のミスマッチ、最適微調整戦略、LLMの統計的性質に固有の低い量子化粒度を含む、サブ8ビットLSM量子化に関する洞察を共有した。 後者の2つのトリックは、下流タスクでほぼ無作為な4ビットLLMを可能にする。 提案されたフレームワークは、公開時にオープンソース化される。

The inference of Large language models (LLMs) requires immense computation and memory resources. To curtail these costs, quantisation has merged as a promising solution, but existing LLM quantisation mainly focuses on 8-bit. In this work, we explore the statistical and learning properties of the LLM layer and attribute the bottleneck of LLM quantisation to numerical scaling offsets. To address this, we adapt block quantisations for LLMs, a family of methods that share scaling factors across packed numbers. Block quantisations efficiently reduce the numerical scaling offsets solely from an arithmetic perspective, without additional treatments in the computational path. Our nearly-lossless quantised 6-bit LLMs achieve a $19\times$ higher arithmetic density and $5\times$ memory density than the float32 baseline, surpassing the prior art 8-bit quantisation by $2.5\times$ in arithmetic density and $1.2\times$ in memory density, without requiring any data calibration or re-training. We also share our insights into sub-8-bit LLM quantisation, including the mismatch between activation and weight distributions, optimal fine-tuning strategies, and a lower quantisation granularity inherent in the statistical properties of LLMs. The latter two tricks enable nearly-lossless 4-bit LLMs on downstream tasks. The proposed framework will be open-sourced upon publication.
翻訳日:2023-10-12 12:46:42 公開日:2023-10-08
# FedFed:フェデレートラーニングにおけるデータ不均一性に対する特徴蒸留

FedFed: Feature Distillation against Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2310.05077v1 )

ライセンス: Link先を確認
Zhiqin Yang, Yonggang Zhang, Yu Zheng, Xinmei Tian, Hao Peng, Tongliang Liu, Bo Han(参考訳) フェデレートラーニング(FL)は通常、データ不均一性、すなわちクライアント間の分散シフトに直面している。 クライアントの情報共有は、データの多様性を緩和する大きな可能性を示しているが、プライバシの保護とモデルパフォーマンスの促進にはジレンマがある。 ジレンマを緩和するために、私たちは基本的な疑問を提起する: \textit{データ内の部分的な特徴を共有して、データの多様性に取り組むことは可能か? この研究において、この疑問に対する肯定的な答えは、 {\textbf{Fed}erated \textbf{Fe}ature \textbf{d}istillation} (FedFed) と呼ばれる新しいアプローチを提案する。 具体的には、feedfedはデータをパフォーマンスに敏感な機能(モデルのパフォーマンスに大きく寄与する)とパフォーマンスロバスト機能(モデルパフォーマンスに限定的に寄与する)に分割する。 パフォーマンスに敏感な機能は、データの不均一性を緩和するために、グローバルに共有される。 FedFedは、クライアントがローカルおよび共有データ上でモデルをトレーニングすることを可能にする。 総合的な実験は、モデル性能の促進におけるFedFedの有効性を示す。

Federated learning (FL) typically faces data heterogeneity, i.e., distribution shifting among clients. Sharing clients' information has shown great potentiality in mitigating data heterogeneity, yet incurs a dilemma in preserving privacy and promoting model performance. To alleviate the dilemma, we raise a fundamental question: \textit{Is it possible to share partial features in the data to tackle data heterogeneity?} In this work, we give an affirmative answer to this question by proposing a novel approach called {\textbf{Fed}erated \textbf{Fe}ature \textbf{d}istillation} (FedFed). Specifically, FedFed partitions data into performance-sensitive features (i.e., greatly contributing to model performance) and performance-robust features (i.e., limitedly contributing to model performance). The performance-sensitive features are globally shared to mitigate data heterogeneity, while the performance-robust features are kept locally. FedFed enables clients to train models over local and shared data. Comprehensive experiments demonstrate the efficacy of FedFed in promoting model performance.
翻訳日:2023-10-12 12:46:14 公開日:2023-10-08
# スケーラブルなワイヤレス連合学習に向けて:課題と解決策

Towards Scalable Wireless Federated Learning: Challenges and Solutions ( http://arxiv.org/abs/2310.05076v1 )

ライセンス: Link先を確認
Yong Zhou, Yuanming Shi, Haibo Zhou, Jingjing Wang, Liqun Fu, and Yang Yang(参考訳) センサ、通信、計算能力を備えたスマートデバイス(携帯電話、車両、ドローンなど)の爆発的な成長は、前例のないほどの量のデータを生み出している。 生成された大量のデータと機械学習(ML)技術の急速な進歩は、さまざまなインテリジェントなアプリケーションを生み出している。 これらのアプリケーションをサポートするためのインテリジェンスを蒸留するために、フェデレートラーニング(FL)は、ネットワークエッジでのプライバシ保護モデルトレーニングを可能にする可能性から、効果的な分散MLフレームワークとして出現する。 本稿では,ネットワーク設計と資源オーケストレーションの両面から,スケーラブルな無線flを実現するための課題と解決策について述べる。 ネットワーク設計においては,タスク指向モデルアグリゲーションが無線FLの性能にどのように影響するかを論じるとともに,モデルアグリゲーションの歪みを低減し,デバイスへの関与を改善することで通信スケーラビリティを向上させる効果的な無線技術を提案する。 資源オーケストレーションでは,既存の最適化アルゴリズムの限界を特定し,無線FLの計算効率向上によるアルゴリズム拡張性向上のための3つのタスク指向学習アルゴリズムを提案する。 今後の研究に値する研究課題をいくつか取り上げる。

The explosive growth of smart devices (e.g., mobile phones, vehicles, drones) with sensing, communication, and computation capabilities gives rise to an unprecedented amount of data. The generated massive data together with the rapid advancement of machine learning (ML) techniques spark a variety of intelligent applications. To distill intelligence for supporting these applications, federated learning (FL) emerges as an effective distributed ML framework, given its potential to enable privacy-preserving model training at the network edge. In this article, we discuss the challenges and solutions of achieving scalable wireless FL from the perspectives of both network design and resource orchestration. For network design, we discuss how task-oriented model aggregation affects the performance of wireless FL, followed by proposing effective wireless techniques to enhance the communication scalability via reducing the model aggregation distortion and improving the device participation. For resource orchestration, we identify the limitations of the existing optimization-based algorithms and propose three task-oriented learning algorithms to enhance the algorithmic scalability via achieving computation-efficient resource allocation for wireless FL. We highlight several potential research issues that deserve further study.
翻訳日:2023-10-12 12:45:54 公開日:2023-10-08
# 文脈情報の効率的な活用による調停構造抽出

Enhancing Argument Structure Extraction with Efficient Leverage of Contextual Information ( http://arxiv.org/abs/2310.05073v1 )

ライセンス: Link先を確認
Yun Luo and Zhen Yang and Fandong Meng and Yingjie Li and Jie Zhou and Yue Zhang(参考訳) 引数構造抽出(ASE)は、文書内の引数の談話構造を特定することを目的としている。 従来の研究では、文脈情報は効果的なASEモデルの開発に不可欠であることが示されている。 しかし,コンテクストウィンドウ内の文の連結だけでは文脈情報を完全に活用できないため,情報量の低い文に対して過度な注意が向けられることがある。 この課題に取り組むために,モデリング能力の向上とトレーニングデータの強化により文脈情報を完全に活用する,効率的な文脈認識型aseモデル(ecase)を提案する。 具体的には,文脈情報と議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。 さらに,会話マーカーや文をランダムにマスキングすることで学習データを強化し,特定の単語への依存度を低下させるか,あるいは情報文を減少させる。 各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。 さらに,本モデルにおける各モジュールの有効性について検討した。

Argument structure extraction (ASE) aims to identify the discourse structure of arguments within documents. Previous research has demonstrated that contextual information is crucial for developing an effective ASE model. However, we observe that merely concatenating sentences in a contextual window does not fully utilize contextual information and can sometimes lead to excessive attention on less informative sentences. To tackle this challenge, we propose an Efficient Context-aware ASE model (ECASE) that fully exploits contextual information by enhancing modeling capacity and augmenting training data. Specifically, we introduce a sequence-attention module and distance-weighted similarity loss to aggregate contextual information and argumentative information. Additionally, we augment the training data by randomly masking discourse markers and sentences, which reduces the model's reliance on specific words or less informative sentences. Our experiments on five datasets from various domains demonstrate that our model achieves state-of-the-art performance. Furthermore, ablation studies confirm the effectiveness of each module in our model.
翻訳日:2023-10-12 12:44:49 公開日:2023-10-08
# CO-ASnet : アクティブセンサネットワークを用いたブロックチェーン技術に基づくスマートコントラクトアーキテクチャ設計

CO-ASnet :A Smart Contract Architecture Design based on Blockchain Technology with Active Sensor Networks ( http://arxiv.org/abs/2310.05070v1 )

ライセンス: Link先を確認
Feng Liu and Jie Yang and Kun-peng Xu and Cang-long Pu and Jiayin Qi(参考訳) 世論リーダーの影響は社会財政の様々な側面に影響を及ぼす。 ブロックチェーン上の資産を実現し、コンプライアンスを遵守する規制スキームを採用する上で、世論指導者の影響力の有用性を分析するには、検討と熟考する価値がある。 マスクはソーシャルメディアにドジコインの購入を呼び掛けており、この論文は世論指導者がICO(初期貨幣)を使って影響力を発揮する現象を実証的に調査するためにイベントスタディを用いている。 その結果、世論のリーダーはICOを使って、彼らのソーシャルネットワークにおける金銭とデータトラフィックによるトークン資産の価格に影響を及ぼすことができた。 それらは過剰なリターンを得ることができ、影響実現の閉ループが加速されるように実現コストを削減できる。 この現象と影響の結果に基づいて、我々はチェーンリンクのoracle with active sensor networks (co-asnet) を用いて、リスクアセスメント戦略とトークン発行のための早期の警告措置を構築的に提供できる安全かつ適用可能な分散規制スキームを設計する。 ブロックチェーン発行における世論指導者の影響は、広く注目され、この論文は、規制当局や企業がブロックチェーンの金融製品開発とガバナンスの境界を探求するための模範的な参考となる。

The influence of opinion leaders impacts different aspects of social finance. How to analyse the utility of opinion leaders' influence in realizing assets on the blockchain and adopt a compliant regulatory scheme is worth exploring and pondering. Taking Musk's call on social media to buy Dogecoin as an example, this paper uses an event study to empirically investigate the phenomenon in which opinion leaders use ICOs (initial coin offerings) to exert influence. The results show that opinion leaders can use ICOs to influence the price of token assets with money and data traffic in their social network. They can obtain excess returns and reduce the cost of realization so that the closed loop of influence realization will be accelerated. Based on this phenomenon and the results of its impact, we use the ChainLink Oracle with Active Sensor Networks(CO-ASnet) to design a safe and applicable decentralized regulatory scheme that can constructively provide risk assessment strategies and early warning measures for token issuance. The influence realization of opinion leaders in blockchain issuance is bound to receive widespread attention, and this paper will provide an exemplary reference for regulators and enterprises to explore the boundaries of blockchain financial product development and governance.
翻訳日:2023-10-12 12:44:32 公開日:2023-10-08
# 多言語エンコーダポテンシャルを解き放つ:確率校正によるゼロショット性能の向上

Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot Performance via Probability Calibration ( http://arxiv.org/abs/2310.05069v1 )

ライセンス: Link先を確認
Ercong Nie, Helmut Schmid, Hinrich Sch\"utze(参考訳) 事前多言語エンコーダモデルは、入力例をクローゼスタイルのプロンプトに変換することで、ゼロショット多言語タスクや言語探索を直接実行することができる。 これは、モデルパラメータの更新を必要とせず、マスクされたトークン位置でラベル語の確率を予測することで達成される。 しかし,このパターンの性能は,事前学習中に頻繁に発生するラベル単語の予測に対するモデルのバイアスによって制限される。 これらの単語は一般的に高い確率を受ける。 この問題に対処するため、モデルによって予測されるラベル語の確率を変化させる様々なキャリブレーション手法を併用する。 単言語エンコーダおよび多言語エンコーダに対する校正手法の有効性を評価する。 様々なタスクにまたがって、キャリブレーションによってかなりのパフォーマンス向上を達成します。 さらに、非常に少ないトレーニングサンプルで、トレーニングされたキャリブレーションパラメータは、追加の強化を実現できる。

Pretraiend multilingual encoder models can directly perform zero-shot multilingual tasks or linguistic probing by reformulating the input examples into cloze-style prompts. This is accomplished by predicting the probabilities of the label words at the masked token position, without requiring any updates to the model parameters. However, the performance of this pattern is limited by the model's bias toward predicting label words which frequently occurred during the pretraining. These words typically receive high probabilities. To address this issue, we combine the models with various calibration techniques which modify the probabilities of label words predicted by the models. We evaluate the effectiveness of these calibration methods on monolingual encoders as well as multilingual encoders. Across a diverse range of tasks, we achieve substantial performance gains through calibration. Furthermore, with only very few training samples, the trained calibration parameters are able to yield additional enhancements.
翻訳日:2023-10-12 12:44:07 公開日:2023-10-08
# 不均一な自己監視学習による表現の強化

Enhancing Representations through Heterogeneous Self-Supervised Learning ( http://arxiv.org/abs/2310.05108v1 )

ライセンス: Link先を確認
Zhong-Yu Li, Bo-Wen Yin, Shanghua Gao, Yongxiang Liu, Li Liu, Ming-Ming Cheng(参考訳) 異なるアーキテクチャから異種表現を組み込むことは、様々なビジョンタスク、例えば、トランスフォーマーと畳み込みを組み合わせたハイブリッドネットワークを促進する。 しかし、このような異種アーキテクチャ間の相補性は、自己教師付き学習では十分に活用されていない。 そこで本研究では,ベースモデルとは異質なアーキテクチャを持つ補助ヘッドからベースモデルを学習するヘテロジニアス自己教師付き学習(hssl)を提案する。 このプロセスでは、HSSLは構造的変化なしに表現学習方法で新しい特徴を持つベースモデルを提供する。 HSSLを包括的に理解するために,ベースモデルと補助ヘッドを含む多種多様な異種対の実験を行った。 アーキテクチャの相違が大きくなるにつれて,ベースモデルの表現品質が向上することがわかった。 本研究の動機は,特定のベースモデルの学習に最も適した補助頭部を迅速に決定する探索戦略と,モデルの差分を増大させる単純かつ効果的な方法を提案することである。 HSSLは、画像分類、セマンティックセグメンテーション、インスタンスのセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて優れたパフォーマンスを達成する。 私たちのソースコードは公開されます。

Incorporating heterogeneous representations from different architectures has facilitated various vision tasks, e.g., some hybrid networks combine transformers and convolutions. However, complementarity between such heterogeneous architectures has not been well exploited in self-supervised learning. Thus, we propose Heterogeneous Self-Supervised Learning (HSSL), which enforces a base model to learn from an auxiliary head whose architecture is heterogeneous from the base model. In this process, HSSL endows the base model with new characteristics in a representation learning way without structural changes. To comprehensively understand the HSSL, we conduct experiments on various heterogeneous pairs containing a base model and an auxiliary head. We discover that the representation quality of the base model moves up as their architecture discrepancy grows. This observation motivates us to propose a search strategy that quickly determines the most suitable auxiliary head for a specific base model to learn and several simple but effective methods to enlarge the model discrepancy. The HSSL is compatible with various self-supervised methods, achieving superior performances on various downstream tasks, including image classification, semantic segmentation, instance segmentation, and object detection. Our source code will be made publicly available.
翻訳日:2023-10-12 12:36:05 公開日:2023-10-08
# OV-PARTS:Open-Vocabulary Part Segmentationを目指して

OV-PARTS: Towards Open-Vocabulary Part Segmentation ( http://arxiv.org/abs/2310.05107v1 )

ライセンス: Link先を確認
Meng Wei, Xiaoyu Yue, Wenwei Zhang, Shu Kong, Xihui Liu, Jiangmiao Pang(参考訳) 多様なオブジェクトの部分のセグメンテーションと認識は、様々なコンピュータビジョンとロボットタスクにまたがるアプリケーションにおいて重要な能力である。 オブジェクトレベルのOpen-Vocabulary Semantic Segmentation (OVSS)では、オブジェクトを任意のテキストでセグメント化するという大きな進歩があったが、それに対応する部分レベルの研究はさらなる課題をもたらす。 第一に、部分セグメンテーションは本質的に複雑な境界を伴うが、限定的な注釈付きデータ複合が課題となる。 第二に、パートセグメンテーションは、オープン世界の部分の多様かつしばしばあいまいな定義のために、オープンな粒度の挑戦をもたらす。 さらに、オープン語彙設定において重要な役割を果たす大規模視覚と言語モデルでは、部品をオブジェクトとして効果的に認識することが困難である。 これらの課題を包括的に調査し,対処するために,Open-Vocabulary Part Segmentation (OV-PARTS)ベンチマークを提案する。 OV-PARTSにはPascal-Part-116とADE20K-Part-234という2つの公開データセットの洗練されたバージョンが含まれている。 一般化ゼロショット部分分割(Generalized Zero-Shot Part Segmentation)、クロスデータセット部分分割(Cross-Dataset Part Segmentation)、Few-Shot Part Segmentation(Few-Shot Part Segmentation)である。 さらに、OV-PARTSのための既存のオブジェクトレベルOVSS手法の2つの一般的なパラダイムを分析し、適応する。 ov-partsの基礎モデルを活用するための今後の研究を刺激するために,広範な実験分析を行った。 コードとデータセットはhttps://github.com/openrobotlab/ov_partsで入手できる。

Segmenting and recognizing diverse object parts is a crucial ability in applications spanning various computer vision and robotic tasks. While significant progress has been made in object-level Open-Vocabulary Semantic Segmentation (OVSS), i.e., segmenting objects with arbitrary text, the corresponding part-level research poses additional challenges. Firstly, part segmentation inherently involves intricate boundaries, while limited annotated data compounds the challenge. Secondly, part segmentation introduces an open granularity challenge due to the diverse and often ambiguous definitions of parts in the open world. Furthermore, the large-scale vision and language models, which play a key role in the open vocabulary setting, struggle to recognize parts as effectively as objects. To comprehensively investigate and tackle these challenges, we propose an Open-Vocabulary Part Segmentation (OV-PARTS) benchmark. OV-PARTS includes refined versions of two publicly available datasets: Pascal-Part-116 and ADE20K-Part-234. And it covers three specific tasks: Generalized Zero-Shot Part Segmentation, Cross-Dataset Part Segmentation, and Few-Shot Part Segmentation, providing insights into analogical reasoning, open granularity and few-shot adapting abilities of models. Moreover, we analyze and adapt two prevailing paradigms of existing object-level OVSS methods for OV-PARTS. Extensive experimental analysis is conducted to inspire future research in leveraging foundational models for OV-PARTS. The code and dataset are available at https://github.com/OpenRobotLab/OV_PARTS.
翻訳日:2023-10-12 12:35:46 公開日:2023-10-08
# グラフニューラルネットワークの学習方法:関数空間におけるトレーニングダイナミクスから学ぶ

How Graph Neural Networks Learn: Lessons from Training Dynamics in Function Space ( http://arxiv.org/abs/2310.05105v1 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, David Wipf, Ruoyu Sun, Junchi Yan(参考訳) ディープラーニングにおける長年の目標は、ブラックボックスモデルの学習行動をより解釈可能な方法で特徴付けることである。 グラフニューラルネットワーク(GNN)では、どの関数を表現できるかの形式化にかなりの進歩があったが、GNNが最適化プロセス中に望ましい関数をどう学習するかは明らかになっていない。 この重要なギャップを埋めるために,関数空間におけるGNNの学習力学をオーバーパラメータ化のフレームワークを用いて研究する。 特に,GNNの複雑なトレーニングプロセスは,グラフ帰納バイアスが暗黙的に現れるため,より親しみやすいラベル伝搬フレームワークに再キャストできることがわかった。 この点から、学習したGNN関数がなぜ一般化したのか、また、観測と整合したヘテロ親和性グラフ上でのそれらの病理学的挙動を説明する。 実際に、学習ダイナミクスのスポース化と実装は、古典的アルゴリズムの効率と現代のGNNの有効性で、最小限の半教師付き学習アルゴリズムをもたらす。

A long-standing goal in deep learning has been to characterize the learning behavior of black-box models in a more interpretable manner. For graph neural networks (GNNs), considerable advances have been made in formalizing what functions they can represent, however it remains less clear whether and how GNNs learn desired functions during the optimization process. To fill this critical gap, we study the learning dynamics of GNNs in function space via the analytic framework of overparameterization. In particular, we find that the seemingly complicated training process of GNNs can be re-cast into a more familiar label propagation framework, due to the graph inductive bias implicit in this process. From this vantage point, we provide explanations for why the learned GNN functions successfully generalize and for their pathological behavior on heterophilic graphs, which are consistent with observations. Practically, sparsifying and implementing the learning dynamics lead to a minimalist semi-supervised learning algorithm with the efficiency of classic algorithms and the effectiveness of modern GNNs.
翻訳日:2023-10-12 12:35:19 公開日:2023-10-08
# マシン生成コードのゼロショット検出

Zero-Shot Detection of Machine-Generated Codes ( http://arxiv.org/abs/2310.05103v1 )

ライセンス: Link先を確認
Xianjun Yang, Kexun Zhang, Haifeng Chen, Linda Petzold, William Yang Wang, Wei Cheng(参考訳) 本研究は,LLMの生成するコードを検出するためのトレーニング不要な手法を提案する。 我々の知る限りでは、ChatGPTのような高度なブラックボックスLLMによって生成されたコードに適用されるゼロショット検出手法を最初に研究した。 まず、既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード構造に特有の統計特性があるため、コード検出に効果がないことが判明した。 次に,ゼロショットテキスト検出法である detectiongpt (mitchell et al., 2023) を,サロゲートホワイトボックスモデルを用いて最右端トークンの確率を推定することで修正し,言語モデルによって生成されたコードスニペットを識別できるようにした。 CodeContestとAPPSデータセットのピソン符号に関する広範な実験を通じて,テキストダヴィンチ003, GPT-3.5, GPT-4モデルに対する最先端検出結果を得ることにより,その有効性を示す。 さらに,本手法はリビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。 また、PolyCoder-160Mのようなより小さなコード言語モデルは、万能コード検出器として機能し、数十億の規模を上回ります。 コードはhttps://github.com/Xianjun-Yang/Code_detection.gitで入手できる。

This work proposes a training-free approach for the detection of LLMs-generated codes, mitigating the risks associated with their indiscriminate usage. To the best of our knowledge, our research is the first to investigate zero-shot detection techniques applied to code generated by advanced black-box LLMs like ChatGPT. Firstly, we find that existing training-based or zero-shot text detectors are ineffective in detecting code, likely due to the unique statistical properties found in code structures. We then modify the previous zero-shot text detection method, DetectGPT (Mitchell et al., 2023) by utilizing a surrogate white-box model to estimate the probability of the rightmost tokens, allowing us to identify code snippets generated by language models. Through extensive experiments conducted on the python codes of the CodeContest and APPS dataset, our approach demonstrates its effectiveness by achieving state-of-the-art detection results on text-davinci-003, GPT-3.5, and GPT-4 models. Moreover, our method exhibits robustness against revision attacks and generalizes well to Java codes. We also find that the smaller code language model like PolyCoder-160M performs as a universal code detector, outperforming the billion-scale counterpart. The codes will be available at https://github.com/ Xianjun-Yang/Code_detection.git
翻訳日:2023-10-12 12:34:59 公開日:2023-10-08
# トラップイオンを介する2つのトラップ原子間の相互作用

Trapped ion-mediated interactions between two distant trapped atoms ( http://arxiv.org/abs/2310.05101v1 )

ライセンス: Link先を確認
Subhra Mudli, Subhanka Mal, Anushree Dey, and Bimalendu Deb(参考訳) 理論的には、2つの大きく分離された孤立した原子が、Rydbergの励起によって捕獲されたイオンと相互作用すると、原子間のイオンによる相互作用は数桁の直接原子と原子の相互作用を超える。 原子の運動はイオンの運動よりもはるかに遅いため、ボルン-オッペンハイマー近似を用いてイオンを媒介する断熱ポテンシャルを計算する。 また10ミクロン以上の原子のイオンを媒介するフォノンモードも計算した。 系の円筒形状と、同じリドベルク状態に励起される両方の原子について、ストレッチドとセンター・オブ・マス(COM)軸または横フォノンモードはほぼ退縮し、一方の原子がリドベルク状態にあり、もう一方の原子が基底状態にあるときにフォノンモードはほとんど退縮しない。 本稿では,ガウス構造と関連する幾何学的位相を生じるシステムにおける非断熱的効果について論じる。 この研究は、量子コンピューティングにおける新しい視点を開き、イオン-原子ハイブリッドアーキテクチャを用いた円錐交叉に関連した分子物理学を探求するかもしれない。

We theoretically show that when two largely separated trapped atoms interact with a trapped ion via Rydberg excitation of the atoms, the ion-mediated interaction between the atoms exceeds the direct atom-atom interaction by several orders of magnitude. Since the motion of the atoms is much slower than the motion of the ion, we resort to Born-Oppenheimer approximation to calculate the ion-mediated adiabatic potential. We also calculate the ion-mediated phonon modes of the atoms that are separated by more than 10 micron. For cylindrical geometry of the system and both the atoms being excited to the same Rydberg state, the stretched and center-of-mass (COM) axial or transverse phonon modes are found to be almost degenerate, while the phonon modes are non-degenerate when one atom is in a Rydberg state and the other in the ground state. We discuss the non-adiabatic effects in the system that give rise to a Gauge structure and associated geometric phase in the system. This study may open a new perspective in quantum computing and exploring molecular physics associated with a conical intersection using an ion-atom hybrid architecture.
翻訳日:2023-10-12 12:34:33 公開日:2023-10-08
# 遅発性遠隔医療応用のためのDRLに基づく知的関心領域

Intelligent DRL-Based Adaptive Region of Interest for Delay-sensitive Telemedicine Applications ( http://arxiv.org/abs/2310.05099v1 )

ライセンス: Link先を確認
Abdulrahman Soliman, Amr Mohamed, Elias Yaacoub, Nikhil V. Navkar, Aiman Erbad(参考訳) 遠隔医療アプリケーションは最近、新型コロナウイルス(covid-19)パンデミック以降、大きな可能性と関心を集めている。 リモート体験は、海外旅行の必要なしに、複雑な手術をしたり、地元の外科医に知識を伝達したりするのに役立ちます。 インターネットのスピードが飛躍的に向上しても、ビデオストリーミングの遅れは、遠隔医療アプリケーションにとってまだハードルだ。 これは、データサイズと送信ニーズを減らすために、画像圧縮と関心領域(roi)技術を使用する。 本稿では、推定スループットに応じてROIサイズと非ROI品質をインテリジェントに適応するDeep Reinforcement Learning (DRL)モデルを提案する。 DRLモデルを評価するために, 遅延・構造類似度指標(SSIM)の比較を行った。 その結果,DRLは遅延を13%低減し,全体的な品質を許容範囲に維持できることがわかった。 遅延は大幅に減少しているため、これらの発見は遠隔医療アプリケーションにとって貴重な拡張である。

Telemedicine applications have recently received substantial potential and interest, especially after the COVID-19 pandemic. Remote experience will help people get their complex surgery done or transfer knowledge to local surgeons, without the need to travel abroad. Even with breakthrough improvements in internet speeds, the delay in video streaming is still a hurdle in telemedicine applications. This imposes using image compression and region of interest (ROI) techniques to reduce the data size and transmission needs. This paper proposes a Deep Reinforcement Learning (DRL) model that intelligently adapts the ROI size and non-ROI quality depending on the estimated throughput. The delay and structural similarity index measure (SSIM) comparison are used to assess the DRL model. The comparison findings and the practical application reveal that DRL is capable of reducing the delay by 13% and keeping the overall quality in an acceptable range. Since the latency has been significantly reduced, these findings are a valuable enhancement to telemedicine applications.
翻訳日:2023-10-12 12:34:10 公開日:2023-10-08
# AI生成テキスト検出器の信頼性 Evasive Soft Prompts を用いた評価フレームワーク

How Reliable Are AI-Generated-Text Detectors? An Assessment Framework Using Evasive Soft Prompts ( http://arxiv.org/abs/2310.05095v1 )

ライセンス: Link先を確認
Tharindu Kumarage, Paras Sheth, Raha Moraffah, Joshua Garland, Huan Liu(参考訳) 近年、AI生成テキストの急速な普及は、主に強力な事前学習言語モデル(PLM)のリリースによって進められている。 ai生成テキストの誤用問題に対処するため、openai検出器やstanford detectiongptなど、さまざまな高性能検出器が開発されている。 本研究では,これらの検出器の信頼性について質問する。 我々は、PLMにこれらの高性能検出器を避けるテキストを生成するよう促す新しいアプローチを設計することで、この質問に答える。 提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するためにPLMを導く。 新たなユニバーサル・エバーシブ・プロンプトは、まず、プロンプト・チューニングによって特定のplmに合わせたエバーシブ・ソフト・プロンプトを作成し、その後、学習したエバーシブ・ソフト・プロンプトを1つのplmから別のplmに転送するためにソフト・プロンプトの転送可能性を活用する。 各種の筆記タスクに複数のPLMを用いて,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するため,広範囲な実験を行った。

In recent years, there has been a rapid proliferation of AI-generated text, primarily driven by the release of powerful pre-trained language models (PLMs). To address the issue of misuse associated with AI-generated text, various high-performing detectors have been developed, including the OpenAI detector and the Stanford DetectGPT. In our study, we ask how reliable these detectors are. We answer the question by designing a novel approach that can prompt any PLM to generate text that evades these high-performing detectors. The proposed approach suggests a universal evasive prompt, a novel type of soft prompt, which guides PLMs in producing "human-like" text that can mislead the detectors. The novel universal evasive prompt is achieved in two steps: First, we create an evasive soft prompt tailored to a specific PLM through prompt tuning; and then, we leverage the transferability of soft prompts to transfer the learned evasive soft prompt from one PLM to another. Employing multiple PLMs in various writing tasks, we conduct extensive experiments to evaluate the efficacy of the evasive soft prompts in their evasion of state-of-the-art detectors.
翻訳日:2023-10-12 12:33:57 公開日:2023-10-08
# 非対称分散連合学習

Asymmetrically Decentralized Federated Learning ( http://arxiv.org/abs/2310.05093v1 )

ライセンス: Link先を確認
Qinglun Li, Miao Zhang, Nan Yin, Quanjun Yin, Li Shen(参考訳) フェデレートラーニング(FL)における集中型サーバに関連する通信負担とプライバシの問題に対処するため、分散フェデレーションラーニング(DFL)が出現し、ピアツーピア(P2P)通信フレームワークでサーバを破棄する。 しかし、既存のdflアルゴリズムの多くは、リングトポロジやグリッドトポロジなどの対称位相に基づいているため、デッドロックが発生しやすく、実際にはネットワークリンク品質の影響に影響を受けやすい。 そこで本稿では,非対称トポロジに基づくDFedSGPSMアルゴリズムを提案し,Push-Sumプロトコルを用いてコンセンサス最適化問題を効果的に解く。 フェデレートラーニング(FL)におけるアルゴリズム性能の向上と局所的ヘテロジニアスオーバーフィッティングの緩和を目的として,シャープネス認識最小化(SAM)最適化と局所運動量を組み合わせたアルゴリズムを提案する。 SAMオプティマイザは勾配摂動を用いて局所的な平坦なモデルを生成し、一様に損失値の低いモデルを探し、局所的な均一なオーバーフィッティングを緩和する。 局所運動量はSAMオプティマイザの最適化プロセスを加速させる。 理論的解析により、DFedSGPSM は穏やかな仮定の下で非凸な滑らかな設定で $\mathcal{O}(\frac{1}{\sqrt{T}})$ の収束率を達成することが証明される。 この分析により、より優れたトポロジカル接続がより強固な上界を実現することが明らかになった。 実験的に、MNIST、CIFAR10、CIFAR100データセットに対して広範な実験を行い、最先端オプティマイザと比較してアルゴリズムの性能が優れていることを示した。

To address the communication burden and privacy concerns associated with the centralized server in Federated Learning (FL), Decentralized Federated Learning (DFL) has emerged, which discards the server with a peer-to-peer (P2P) communication framework. However, most existing DFL algorithms are based on symmetric topologies, such as ring and grid topologies, which can easily lead to deadlocks and are susceptible to the impact of network link quality in practice. To address these issues, this paper proposes the DFedSGPSM algorithm, which is based on asymmetric topologies and utilizes the Push-Sum protocol to effectively solve consensus optimization problems. To further improve algorithm performance and alleviate local heterogeneous overfitting in Federated Learning (FL), our algorithm combines the Sharpness Aware Minimization (SAM) optimizer and local momentum. The SAM optimizer employs gradient perturbations to generate locally flat models and searches for models with uniformly low loss values, mitigating local heterogeneous overfitting. The local momentum accelerates the optimization process of the SAM optimizer. Theoretical analysis proves that DFedSGPSM achieves a convergence rate of $\mathcal{O}(\frac{1}{\sqrt{T}})$ in a non-convex smooth setting under mild assumptions. This analysis also reveals that better topological connectivity achieves tighter upper bounds. Empirically, extensive experiments are conducted on the MNIST, CIFAR10, and CIFAR100 datasets, demonstrating the superior performance of our algorithm compared to state-of-the-art optimizers.
翻訳日:2023-10-12 12:33:34 公開日:2023-10-08
# きめ細かい情報抽出のための拡張命令付き大規模言語モデルのベンチマーク

Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction ( http://arxiv.org/abs/2310.05092v1 )

ライセンス: Link先を確認
Jun Gao, Huan Zhao, Yice Zhang, Wei Wang, Changlong Yu, Ruifeng Xu(参考訳) 自然言語処理において,情報抽出(IE)は重要な課題である。 従来の方法は粗粒抽出と単純な指示に頼ってきた。 しかし、大規模言語モデル(llms)の出現に伴い、これらのモデルの能力を活用するためにie技術を適用する必要がある。 本稿では, タスク記述, 抽出規則, 出力形式, 例を含む, 情報型毎に拡張命令を付加した, LLMに適したIEベンチマークデータセットを提案する。 特にT5とFLAN-T5のエンコーダデコーダモデルでは,未確認情報型への一般化が良好であるのに対し,ChatGPTではタスク形式への適応性が向上している。 また,性能はモデルスケールのみによって決定されるのではなく,アーキテクチャ,データ多様性,学習技術の重要性を強調する。 この研究は、情報抽出におけるLLMのより洗練された多用途利用の道を開くものである。

Information Extraction (IE) is an essential task in Natural Language Processing. Traditional methods have relied on coarse-grained extraction with simple instructions. However, with the emergence of Large Language Models (LLMs), there is a need to adapt IE techniques to leverage the capabilities of these models. This paper introduces a fine-grained IE benchmark dataset tailored for LLMs, employing augmented instructions for each information type, which includes task descriptions, extraction rules, output formats, and examples. Through extensive evaluations, we observe that encoder-decoder models, particularly T5 and FLAN-T5, perform well in generalizing to unseen information types, while ChatGPT exhibits greater adaptability to new task forms. Our results also indicate that performance is not solely dictated by model scale, and highlight the significance of architecture, data diversity, and learning techniques. This work paves the way for a more refined and versatile utilization of LLMs in Information Extraction.
翻訳日:2023-10-12 12:33:01 公開日:2023-10-08
# 塩分誘導特徴の相関による一般化エージェントの学習

Learning Generalizable Agents via Saliency-Guided Features Decorrelation ( http://arxiv.org/abs/2310.05086v1 )

ライセンス: Link先を確認
Sili Huang, Yanchao Sun, Jifeng Hu, Siyuan Guo, Hechang Chen, Yi Chang, Lichao Sun, Bo Yang(参考訳) 視覚に基づく強化学習(Reinforcement Learning, RL)では、エージェントは訓練中に観察されなかった状態空間の環境変動によく適応するのに苦労する。 この変化は、背景雑音などのタスク非関連特徴と、最適決定に関連するロボット構成のようなタスク関連特徴の両方に生じる可能性がある。 両状況の一般化を実現するために,エージェントは変化した特徴が決定に与える影響,すなわち変化した特徴と政策モデルにおける決定との真の関連性を確立することを正確に理解する必要がある。 しかし、国家空間の特徴間の固有の相関関係のため、特徴と決定の関連が絡み合っており、政策がそれらの区別を困難にしている。 そこで本研究では,これらの相関を除去すべく,sgfd(saliency-guided features decorrelation)を提案する。 具体的には、SGFDはランダムフーリエ関数(RFF)とサリエンシマップの2つのコア技術から構成される。 RFFは高次元画像における複雑な非線形相関を推定するために利用され、サリエンシマップは変化した特徴を識別するために設計されている。 サリエンシマップの指導のもと、SGFDはサンプル再重み付けを用いて、変化した特徴に関する推定相関を最小化し、視覚的RLタスクにおけるデコリレーションを実現する。 実験の結果,sgfdは幅広いテスト環境において十分に一般化でき,タスクの無関係なバリエーションとタスク関連のバリエーションの両方を扱う場合,最先端の手法を著しく上回ることがわかった。

In visual-based Reinforcement Learning (RL), agents often struggle to generalize well to environmental variations in the state space that were not observed during training. The variations can arise in both task-irrelevant features, such as background noise, and task-relevant features, such as robot configurations, that are related to the optimal decisions. To achieve generalization in both situations, agents are required to accurately understand the impact of changed features on the decisions, i.e., establishing the true associations between changed features and decisions in the policy model. However, due to the inherent correlations among features in the state space, the associations between features and decisions become entangled, making it difficult for the policy to distinguish them. To this end, we propose Saliency-Guided Features Decorrelation (SGFD) to eliminate these correlations through sample reweighting. Concretely, SGFD consists of two core techniques: Random Fourier Functions (RFF) and the saliency map. RFF is utilized to estimate the complex non-linear correlations in high-dimensional images, while the saliency map is designed to identify the changed features. Under the guidance of the saliency map, SGFD employs sample reweighting to minimize the estimated correlations related to changed features, thereby achieving decorrelation in visual RL tasks. Our experimental results demonstrate that SGFD can generalize well on a wide range of test environments and significantly outperforms state-of-the-art methods in handling both task-irrelevant variations and task-relevant variations.
翻訳日:2023-10-12 12:32:45 公開日:2023-10-08
# ed-cec:誤り検出と文脈認識誤り訂正に基づくasr後処理によるレアワード認識の改善

ed-cec: improving rare word recognition using asr postprocessing based on error detection and context-aware error correction ( http://arxiv.org/abs/2310.05129v1 )

ライセンス: Link先を確認
Jiajun He, Zekun Yang, Tomoki Toda(参考訳) 自動音声認識(ASR)システムは、稀な単語を正確に認識する上で、しばしば困難に遭遇し、キーワードスポッティング、意図検出、テキスト要約などの下流タスクに悪影響を及ぼすエラーを引き起こす。 そこで本研究では,誤り検出と文脈認識による誤り訂正により,レアワードの認識を改善することに焦点を当てた新しいasrポストプロセッシング手法を提案する。 提案手法は,予測誤り位置のみをターゲットとしてデコード処理を最適化し,不要な計算を最小化する。 さらに,レアワードリストを利用して追加の文脈知識を提供し,レアワードの訂正をより容易に行えるようにした。 5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)を著しく低くし,適切な推論速度を維持した。 さらに,本手法は,異なるASRシステムにまたがる有望な堅牢性を示す。

Automatic speech recognition (ASR) systems often encounter difficulties in accurately recognizing rare words, leading to errors that can have a negative impact on downstream tasks such as keyword spotting, intent detection, and text summarization. To address this challenge, we present a novel ASR postprocessing method that focuses on improving the recognition of rare words through error detection and context-aware error correction. Our method optimizes the decoding process by targeting only the predicted error positions, minimizing unnecessary computations. Moreover, we leverage a rare word list to provide additional contextual knowledge, enabling the model to better correct rare words. Experimental results across five datasets demonstrate that our proposed method achieves significantly lower word error rates (WERs) than previous approaches while maintaining a reasonable inference speed. Furthermore, our approach exhibits promising robustness across different ASR systems.
翻訳日:2023-10-12 12:27:05 公開日:2023-10-08
# 例とラベル:階層型マルチラベルテキスト分類のための教師付きコントラスト学習

Instances and Labels: Hierarchy-aware Joint Supervised Contrastive Learning for Hierarchical Multi-Label Text Classification ( http://arxiv.org/abs/2310.05128v1 )

ライセンス: Link先を確認
Simon Chi Lok U, Jie He, V\'ictor Guti\'errez-Basulto, Jeff Z. Pan(参考訳) 階層型多ラベルテキスト分類(HMTC)は,多ラベル分類におけるラベル階層の活用を目的としている。 HMTCへの最近のアプローチは、テキストとラベルの埋め込みを近接させる半教師付き方法で生成されたサンプルのコントラスト学習を使用することにより、出力空間に過剰に制約された前提を課す問題に対処する。 しかし、サンプルの生成は、同じバッチ内の類似したサンプル間の相関を無視してノイズを起こす傾向がある。 この問題の1つの解決策は、教師付きコントラスト学習であるが、複雑な構造化ラベルのため、HMTCでは未探索のトピックである。 この課題を克服するために、教師付きコントラスト学習とHMTCのギャップを埋めるHJCL(Herarchy-aware \textbf{J}oint Supervised \textbf{C}ontrastive \textbf{L}earning)を提案する。 具体的には,インスタンス単位とラベル単位の両方のコントラスト学習技術を採用し,コントラスト学習目標を達成するために注意深くバッチを構成する。

Hierarchical multi-label text classification (HMTC) aims at utilizing a label hierarchy in multi-label classification. Recent approaches to HMTC deal with the problem of imposing an overconstrained premise on the output space by using contrastive learning on generated samples in a semi-supervised manner to bring text and label embeddings closer. However, the generation of samples tends to introduce noise as it ignores the correlation between similar samples in the same batch. One solution to this issue is supervised contrastive learning, but it remains an underexplored topic in HMTC due to its complex structured labels. To overcome this challenge, we propose HJCL, a \textbf{H}ierarchy-aware \textbf{J}oint Supervised \textbf{C}ontrastive \textbf{L}earning method that bridges the gap between supervised contrastive learning and HMTC. Specifically, we employ both instance-wise and label-wise contrastive learning techniques and carefully construct batches to fulfill the contrastive learning objective.
翻訳日:2023-10-12 12:26:48 公開日:2023-10-08
# UReader: マルチモーダル大言語モデルを用いた汎用OCRフリービジュアル言語理解

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model ( http://arxiv.org/abs/2310.05126v1 )

ライセンス: Link先を確認
Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Guohai Xu, Chenliang Li, Junfeng Tian, Qi Qian, Ji Zhang, Qin Jin, Liang He, Xin Alex Lin, Fei Huang(参考訳) テキストは私たちの視覚世界においてユビキタスであり、文書、ウェブサイト、日々の写真など重要な情報を伝える。 本稿では,MLLM(Multimodal Large Language Model)に基づく,OCRを含まない視覚的言語理解の汎用的研究であるUReaderを提案する。 mllmの浅いテキスト認識能力を利用することで、1.2%のパラメータを微調整し、トレーニングコストはドメイン固有の事前学習と微調整パラダイムに従う以前の作業よりもはるかに低い。 具体的には、UReaderは、統一的な命令フォーマットを通じて、広範囲のVisually-situated Language Understandingタスクで共同で微調整される。 視覚的テキストと意味理解を強化するために,テキスト読解とキーポイント生成タスクという2つの補助タスクを同じフォーマットで適用する。 MLLMのエンコーダ・デコーダアーキテクチャの前に形状適応型トリミングモジュールを設計し,凍結した低解像度ビジョンエンコーダを用いて高解像度画像の処理を行う。 ダウンストリームの微調整がなければ、単一のモデルはドキュメント、テーブル、チャート、自然画像、ウェブページのスクリーンショットの5つのドメインにわたって、10の視覚的な言語理解タスクのうち8つで最先端のocrフリーパフォーマンスを実現します。 コードと命令チューニングデータセットがリリースされる。

Text is ubiquitous in our visual world, conveying crucial information, such as in documents, websites, and everyday photographs. In this work, we propose UReader, a first exploration of universal OCR-free visually-situated language understanding based on the Multimodal Large Language Model (MLLM). By leveraging the shallow text recognition ability of the MLLM, we only finetuned 1.2% parameters and the training cost is much lower than previous work following domain-specific pretraining and finetuning paradigms. Concretely, UReader is jointly finetuned on a wide range of Visually-situated Language Understanding tasks via a unified instruction format. To enhance the visual text and semantic understanding, we further apply two auxiliary tasks with the same format, namely text reading and key points generation tasks. We design a shape-adaptive cropping module before the encoder-decoder architecture of MLLM to leverage the frozen low-resolution vision encoder for processing high-resolution images. Without downstream finetuning, our single model achieves state-of-the-art ocr-free performance in 8 out of 10 visually-situated language understanding tasks, across 5 domains: documents, tables, charts, natural images, and webpage screenshots. Codes and instruction-tuning datasets will be released.
翻訳日:2023-10-12 12:26:27 公開日:2023-10-08
# 軽量点雲解析のための双方向知識再構成

Bidirectional Knowledge Reconfiguration for Lightweight Point Cloud Analysis ( http://arxiv.org/abs/2310.05125v1 )

ライセンス: Link先を確認
Peipei Li, Xing Cui, Yibo Hu, Man Zhang, Ting Yao, Tao Mei(参考訳) ポイントクラウド分析は計算システムのオーバーヘッドに直面し、モバイルやエッジデバイス上のアプリケーションを制限する。 小さなモデルを直接使用すると、ローカルな構造とグローバルな形状情報を適切に捉えることが困難になるため、パフォーマンスが大幅に低下する可能性がある。 本稿では,軽量点雲モデルの特徴蒸留について述べる。 ライトウェイトな学生と面倒な教師のセマンティックなギャップを軽減するために,教師から生徒への情報的文脈的知識を抽出するための双方向知識再構成(BKR)を提案する。 具体的には,教師から多様な局所構造情報と一貫したグローバルな形状知識を継承するために,トップダウンの知識再構成とボトムアップの知識再構成を開発する。 しかし,ほとんどの点クラウドモデルにおける最遠点サンプリングにより,教師と生徒の中間的特徴が不整合となり,蒸留性能が低下する。 そこで本研究では,不整点雲間の距離を効果的に測定できる最適移動量に基づく特徴移動距離(fmd)損失を提案する。 形状分類,部分セグメンテーションおよび意味セグメンテーションベンチマークに関する広範な実験により,本手法の普遍性と優越性が示された。

Point cloud analysis faces computational system overhead, limiting its application on mobile or edge devices. Directly employing small models may result in a significant drop in performance since it is difficult for a small model to adequately capture local structure and global shape information simultaneously, which are essential clues for point cloud analysis. This paper explores feature distillation for lightweight point cloud models. To mitigate the semantic gap between the lightweight student and the cumbersome teacher, we propose bidirectional knowledge reconfiguration (BKR) to distill informative contextual knowledge from the teacher to the student. Specifically, a top-down knowledge reconfiguration and a bottom-up knowledge reconfiguration are developed to inherit diverse local structure information and consistent global shape knowledge from the teacher, respectively. However, due to the farthest point sampling in most point cloud models, the intermediate features between teacher and student are misaligned, deteriorating the feature distillation performance. To eliminate it, we propose a feature mover's distance (FMD) loss based on optimal transportation, which can measure the distance between unordered point cloud features effectively. Extensive experiments conducted on shape classification, part segmentation, and semantic segmentation benchmarks demonstrate the universality and superiority of our method.
翻訳日:2023-10-12 12:26:02 公開日:2023-10-08
# 顔偽造検出のためのクロスドメインロバストなディープフェイクバイアス拡張ネットワーク

Cross-domain Robust Deepfake Bias Expansion Network for Face Forgery Detection ( http://arxiv.org/abs/2310.05124v1 )

ライセンス: Link先を確認
Weihua Liu, Lin Li, Chaochao Lin, Said Boumaraf(参考訳) ディープフェイク技術の急速な進歩は、顔認識システムのセキュリティに対する大きな懸念を引き起こす。 既存の手法では、ディープフェイク技術が顔の偽造検出に用いている手がかりを利用するが、悪意のあるユーザーは故意に偽造された顔を操り、ディープフェイクの手がかりの痕跡を隠蔽し、検出ツールを騙すことができる。 一方で、データベースメソッドのクロスドメインロバスト性を実現することは、すべての関連するドメインのサンプルを包含しないトレーニングデータに潜在的なギャップがあるため、課題となる。 そこで本稿では,顔偽造検出の高速化を目的とした,クロスドメインロバストバイアス拡張ネットワーク(BENet)を提案する。 benetはオートエンコーダを使用して入力面を再構築し、実際の顔の不分散を維持しつつ、再建された偽の顔と元の顔との差異を選択的に強化する。 この強化されたバイアスは、依存可能な偽造検出を構築できる堅牢な基盤を形成する。 BENetにおける再構成結果の最適化には、上記の目的を達成するために、対照的な概念を取り入れたバイアス展開損失を用いる。 さらに、鍛造されたヒントの増幅をさらに高めるため、BENetにはLSAモジュールが組み込まれている。 このLSAモジュールは、自動エンコーダのエンコーダとデコーダの遅延特徴のばらつきを効果的に捉え、一貫性のない偽情報に重点を置いている。 さらに、BENetは、サンプルが既知の分布に属するかどうかを決定する閾値を持つクロスドメイン検出器を組み込んでいる。 クロスドメイン検出器による分類結果の補正により、BENetはクロスドメインからの未知のディープフェイク攻撃に対して防御することができる。 大規模な実験は、データベース内およびデータベース間評価における最先端手法と比較してBENetの優位性を示す。

The rapid advancement of deepfake technologies raises significant concerns about the security of face recognition systems. While existing methods leverage the clues left by deepfake techniques for face forgery detection, malicious users may intentionally manipulate forged faces to obscure the traces of deepfake clues and thereby deceive detection tools. Meanwhile, attaining cross-domain robustness for data-based methods poses a challenge due to potential gaps in the training data, which may not encompass samples from all relevant domains. Therefore, in this paper, we introduce a solution - a Cross-Domain Robust Bias Expansion Network (BENet) - designed to enhance face forgery detection. BENet employs an auto-encoder to reconstruct input faces, maintaining the invariance of real faces while selectively enhancing the difference between reconstructed fake faces and their original counterparts. This enhanced bias forms a robust foundation upon which dependable forgery detection can be built. To optimize the reconstruction results in BENet, we employ a bias expansion loss infused with contrastive concepts to attain the aforementioned objective. In addition, to further heighten the amplification of forged clues, BENet incorporates a Latent-Space Attention (LSA) module. This LSA module effectively captures variances in latent features between the auto-encoder's encoder and decoder, placing emphasis on inconsistent forgery-related information. Furthermore, BENet incorporates a cross-domain detector with a threshold to determine whether the sample belongs to a known distribution. The correction of classification results through the cross-domain detector enables BENet to defend against unknown deepfake attacks from cross-domain. Extensive experiments demonstrate the superiority of BENet compared with state-of-the-art methods in intra-database and cross-database evaluations.
翻訳日:2023-10-12 12:25:41 公開日:2023-10-08
# 分布に基づく軌道クラスタリング

Distribution-Based Trajectory Clustering ( http://arxiv.org/abs/2310.05123v1 )

ライセンス: Link先を確認
Zi Jing Wang, Ye Zhu, Kai Ming Ting(参考訳) 軌道クラスタリングは、軌道データの共通パターンの発見を可能にする。 現在の軌道クラスタリングの方法は、2つの軌道間の相似性を測定するために2つの点間の距離測度に依存する。 距離測定には高い計算コストと低い忠実度という2つの課題がある。 既存のクラスタリングアルゴリズムが採用する距離測定とは独立に、別の課題がある。 本稿では,最近の分散カーネル(IDK)を3つの課題に対処するための主要なツールとして用いることを提案する。 TIDKCと呼ばれる新しいIDKベースのクラスタリングアルゴリズムは、軌道類似度測定とクラスタリングに分散カーネルをフル活用する。 TIDKCは不規則な形状と線形時間における密度の異なる非線形分離性クラスターを同定する。 ランダム初期化に依存しず、外れ値に対して堅牢である。 7つの大規模実世界の軌跡データセットの広範な評価により、IDKは従来の深層学習に基づく距離測定よりも、軌跡内の複雑な構造を捉えるのに効果的であることが示された。 さらに,提案したTIDKCは,既存のトラジェクトリクラスタリングアルゴリズムよりもクラスタリング性能と効率が優れている。

Trajectory clustering enables the discovery of common patterns in trajectory data. Current methods of trajectory clustering rely on a distance measure between two points in order to measure the dissimilarity between two trajectories. The distance measures employed have two challenges: high computational cost and low fidelity. Independent of the distance measure employed, existing clustering algorithms have another challenge: either effectiveness issues or high time complexity. In this paper, we propose to use a recent Isolation Distributional Kernel (IDK) as the main tool to meet all three challenges. The new IDK-based clustering algorithm, called TIDKC, makes full use of the distributional kernel for trajectory similarity measuring and clustering. TIDKC identifies non-linearly separable clusters with irregular shapes and varied densities in linear time. It does not rely on random initialisation and is robust to outliers. An extensive evaluation on 7 large real-world trajectory datasets confirms that IDK is more effective in capturing complex structures in trajectories than traditional and deep learning-based distance measures. Furthermore, the proposed TIDKC has superior clustering performance and efficiency to existing trajectory clustering algorithms.
翻訳日:2023-10-12 12:25:11 公開日:2023-10-08
# 胸部X線レポート生成のための動的マルチドメイン知識ネットワーク

Dynamic Multi-Domain Knowledge Networks for Chest X-ray Report Generation ( http://arxiv.org/abs/2310.05119v1 )

ライセンス: Link先を確認
Weihua Liu, Youyuan Xue, Chaochao Lin, Said Boumaraf(参考訳) 放射線診断レポートの自動生成は、放射線科医がタイムリーかつ正確な診断決定をし、臨床診断効率を向上するのに役立つ。 しかし、正常標本と異常標本(視覚バイアスとテキストバイアスを含む)の間のデータ分布の著しい不均衡は、診断放射線学的レポートの自動生成のようなデータ駆動タスクにとって大きな課題となる。 そこで我々は,放射線診断レポート生成のための動的マルチドメイン知識(DMDK)ネットワークを提案する。 DMDKネットワークは、Chest Feature Extractor(CFE), Dynamic Knowledge Extractor(DKE), Specific Knowledge Extractor(SKE), Multi-knowledge Integrator(MKI)モジュールの4つのモジュールで構成されている。 特に、cfeモジュールは、主に画像の未処理の視覚的医療的特徴を抽出する責任がある。 dkeモジュールは、検索された放射線診断レポートから動的疾患のトピックラベルを抽出する責任がある。 次に、動的疾患の話題ラベルを画像の本来の視覚特徴と融合させ、元の視覚特徴の異常領域を強調することで、視覚データのバイアス問題を緩和する。 skeモジュールは、従来の静的知識グラフを拡張して、テキストデータバイアスを軽減し、ドメイン固有の動的知識グラフを介してモデルの解釈能力を増幅する。 MKIはすべての知識を蒸留し、最終診断放射線学レポートを生成する。 IU X-RayとMIMIC-CXRの2つの広く使われているデータセットについて広範な実験を行った。 実験の結果,提案手法の有効性が示され,過去の最先端モデルよりも評価指標が優れていた。

The automated generation of radiology diagnostic reports helps radiologists make timely and accurate diagnostic decisions while also enhancing clinical diagnostic efficiency. However, the significant imbalance in the distribution of data between normal and abnormal samples (including visual and textual biases) poses significant challenges for a data-driven task like automatically generating diagnostic radiology reports. Therefore, we propose a Dynamic Multi-Domain Knowledge(DMDK) network for radiology diagnostic report generation. The DMDK network consists of four modules: Chest Feature Extractor(CFE), Dynamic Knowledge Extractor(DKE), Specific Knowledge Extractor(SKE), and Multi-knowledge Integrator(MKI) module. Specifically, the CFE module is primarily responsible for extracting the unprocessed visual medical features of the images. The DKE module is responsible for extracting dynamic disease topic labels from the retrieved radiology diagnostic reports. We then fuse the dynamic disease topic labels with the original visual features of the images to highlight the abnormal regions in the original visual features to alleviate the visual data bias problem. The SKE module expands upon the conventional static knowledge graph to mitigate textual data biases and amplify the interpretability capabilities of the model via domain-specific dynamic knowledge graphs. The MKI distills all the knowledge and generates the final diagnostic radiology report. We performed extensive experiments on two widely used datasets, IU X-Ray and MIMIC-CXR. The experimental results demonstrate the effectiveness of our method, with all evaluation metrics outperforming previous state-of-the-art models.
翻訳日:2023-10-12 12:24:56 公開日:2023-10-08
# CARLG: 文書レベルのイベント引数抽出を改善するためのコンテキストキューの活用と役割相関

CARLG: Leveraging Contextual Clues and Role Correlations for Improving Document-level Event Argument Extraction ( http://arxiv.org/abs/2310.05116v1 )

ライセンス: Link先を確認
Wanlong Liu, Wenyu Chen, Dingyi Zeng, Li Zhou, Hong Qu(参考訳) 文書レベルのイベント引数抽出(EAE)は、情報抽出において重要なサブタスクである。 既存のほとんどのアプローチは、議論とイベントトリガーの相互作用に焦点を当てており、文脈的手がかりの情報と議論の役割間の意味的相関という2つの重要なポイントを無視している。 本稿では,CARLGモデルを提案する。CCA (Contextual Clues Aggregation) とRLIG (Role-based Latent Information Guidance) の2つのモジュールから構成される。 CCAモジュールは、事前訓練されたエンコーダからのコンテキストアテンション重みを利用して、コンテキストヒントを適応的にキャプチャし、統合する。 RLIGモジュールはロール間エンコーディングを通じて意味的相関をキャプチャし、潜在ロール表現を伴う貴重な情報ガイダンスを提供する。 特に,我々のCCAおよびRLIGモジュールはコンパクトで移植可能で効率的であり,1%以上の新しいパラメータを導入せず,性能が著しく向上した他のスパンベース法に容易に対応できる。 RAMS、WikiEvents、MLEEデータセットに関する大規模な実験は、提案したCARLGモデルの優位性を示している。 従来の1.26 f1, 1.22 f1, 1.98 f1よりも優れており、推論時間は31%削減されている。 さらに,性能向上に基づく詳細な実験解析を行い,モデルの解釈可能性を示す。

Document-level event argument extraction (EAE) is a crucial but challenging subtask in information extraction. Most existing approaches focus on the interaction between arguments and event triggers, ignoring two critical points: the information of contextual clues and the semantic correlations among argument roles. In this paper, we propose the CARLG model, which consists of two modules: Contextual Clues Aggregation (CCA) and Role-based Latent Information Guidance (RLIG), effectively leveraging contextual clues and role correlations for improving document-level EAE. The CCA module adaptively captures and integrates contextual clues by utilizing context attention weights from a pre-trained encoder. The RLIG module captures semantic correlations through role-interactive encoding and provides valuable information guidance with latent role representation. Notably, our CCA and RLIG modules are compact, transplantable and efficient, which introduce no more than 1% new parameters and can be easily equipped on other span-base methods with significant performance boost. Extensive experiments on the RAMS, WikiEvents, and MLEE datasets demonstrate the superiority of the proposed CARLG model. It outperforms previous state-of-the-art approaches by 1.26 F1, 1.22 F1, and 1.98 F1, respectively, while reducing the inference time by 31%. Furthermore, we provide detailed experimental analyses based on the performance gains and illustrate the interpretability of our model.
翻訳日:2023-10-12 12:24:31 公開日:2023-10-08
# 層次元選択による事前学習言語モデルからの単語セマンティクスの分解

Breaking Down Word Semantics from Pre-trained Language Models through Layer-wise Dimension Selection ( http://arxiv.org/abs/2310.05115v1 )

ライセンス: Link先を確認
Nayoung Choi(参考訳) プレトレーニング言語モデル(PLM)から得られた文脈語埋め込みは,単語レベルでの自然言語処理に有効であることが証明されている。 しかし、構文やセマンティクスといった埋め込み内の隠れたアスペクトを解釈することは依然として困難である。 disentangled representation learningは有望なアプローチとして登場し、特定の側面を異なる埋め込みに分割する。 さらに、異なる言語知識はplmの異なる層に格納されると考えられている。 本稿では,事前学習されたパラメータを更新することなく,層間の中間出力にバイナリマスクを適用することで,BERTから意味感覚を分離することを目的とする。 2つの異なる文中の対象語が同じ意味を持つかどうかを二項分類により判定する。 BERT$_{\texttt{base}}$での実験では、レイヤワイズ情報を活用することは効果的であり、セマンティックセンスの分離はパフォーマンスをさらに向上させる。

Contextual word embeddings obtained from pre-trained language model (PLM) have proven effective for various natural language processing tasks at the word level. However, interpreting the hidden aspects within embeddings, such as syntax and semantics, remains challenging. Disentangled representation learning has emerged as a promising approach, which separates specific aspects into distinct embeddings. Furthermore, different linguistic knowledge is believed to be stored in different layers of PLM. This paper aims to disentangle semantic sense from BERT by applying a binary mask to middle outputs across the layers, without updating pre-trained parameters. The disentangled embeddings are evaluated through binary classification to determine if the target word in two different sentences has the same meaning. Experiments with cased BERT$_{\texttt{base}}$ show that leveraging layer-wise information is effective and disentangling semantic sense further improve performance.
翻訳日:2023-10-12 12:24:04 公開日:2023-10-08
# マルチモーダル統一モデルのための軽量インコンテキストチューニング

Lightweight In-Context Tuning for Multimodal Unified Models ( http://arxiv.org/abs/2310.05109v1 )

ライセンス: Link先を確認
Yixin Chen, Shuai Zhang, Boran Han, Jiaya Jia(参考訳) In-context Learning (ICL) は、与えられた文脈の例から推論する。 より多くのモダリティが現れるにつれて、この手順は、インターリーブされた入力モダリティが理解プロセスに畳み込み、より困難になってきている。 これは、マルチモーダルモデルが、iclを実行するために文脈的な例から効果的に外挿するのに苦労しているという観察から示される。 これらの課題に対処するために、マルチモーダル統一モデルのICL機能を強化する軽量モジュールであるMultiModal In-conteXt Tuning (M$^2$IXT)を導入する。 提案されたM$^2$IXTモジュールは拡張可能なコンテキストウィンドウを認識し、複数のモード(テキスト、画像、座標など)のラベル付きサンプルを組み込む。 異なるアーキテクチャの様々なマルチモーダル統一モデル(OFA、Unival、LLaVAなど)に事前適用可能であり、複数のタスクやデータセットに対する迅速な数発の適応を可能にする混合タスク戦略を通じて訓練される。 When tuned on as little as 50K multimodal data, M$^2$IXT can boost the few-shot ICL performance significantly (e.g., 18\% relative increase for OFA), and obtained state-of-the-art results across an array of tasks including visual question answering, image captioning, visual grounding, and visual entailment, while being considerably small in terms of model parameters (e.g., $\sim$$20\times$ smaller than Flamingo or MMICL), highlighting the flexibility and effectiveness of M$^2$IXT as a multimodal in-context learner.

In-context learning (ICL) involves reasoning from given contextual examples. As more modalities comes, this procedure is becoming more challenging as the interleaved input modalities convolutes the understanding process. This is exemplified by the observation that multimodal models often struggle to effectively extrapolate from contextual examples to perform ICL. To address these challenges, we introduce MultiModal In-conteXt Tuning (M$^2$IXT), a lightweight module to enhance the ICL capabilities of multimodal unified models. The proposed M$^2$IXT module perceives an expandable context window to incorporate various labeled examples of multiple modalities (e.g., text, image, and coordinates). It can be prepended to various multimodal unified models (e.g., OFA, Unival, LLaVA) of different architectures and trained via a mixed-tasks strategy to enable rapid few-shot adaption on multiple tasks and datasets. When tuned on as little as 50K multimodal data, M$^2$IXT can boost the few-shot ICL performance significantly (e.g., 18\% relative increase for OFA), and obtained state-of-the-art results across an array of tasks including visual question answering, image captioning, visual grounding, and visual entailment, while being considerably small in terms of model parameters (e.g., $\sim$$20\times$ smaller than Flamingo or MMICL), highlighting the flexibility and effectiveness of M$^2$IXT as a multimodal in-context learner.
翻訳日:2023-10-12 12:23:51 公開日:2023-10-08
# 転送可能なアベイラビリティー中毒攻撃

Transferable Availability Poisoning Attacks ( http://arxiv.org/abs/2310.05141v1 )

ライセンス: Link先を確認
Yiyong Liu, Michael Backes, Xiao Zhang(参考訳) 機械学習モデルの総合的なテスト精度を低下させることを目的として,トレーニングデータに小さな摂動を施すことを目的とした,アベイラビリティデータ中毒攻撃を考える。 既存の毒殺戦略は攻撃目標を達成するが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。 本稿では,この仮定が強いことを論じる。これは,クリーンなデータに対する目標性能を達成できる限り,学習アルゴリズムを選択してモデルを訓練することができるためである。 実験では,モデル学習に異なる学習パラダイムを用い,異なる学習者と攻撃方法に対して発生した摂動の頻度レベル特性に有意な差がある場合,事前中毒攻撃の有効性が大幅に低下することを観察した。 攻撃伝達性を高めるために,教師付きおよび教師なしのコントラッシブ学習パラダイムから選択された2つの特定のアルゴリズムを用いて,勾配情報を交互に利用することにより,高周波中毒を発生させるTransferable Poisoningを提案する。 ベンチマーク画像データセットに関する広範囲な実験を通じて,我々のトランスファー可能な毒殺攻撃は,その攻撃を考案するために使用した2つの学習者だけでなく,学習アルゴリズムやそれ以上のパラダイムにも適用可能な,有毒なサンプルを生成できることを示した。

We consider availability data poisoning attacks, where an adversary aims to degrade the overall test accuracy of a machine learning model by crafting small perturbations to its training data. Existing poisoning strategies can achieve the attack goal but assume the victim to employ the same learning method as what the adversary uses to mount the attack. In this paper, we argue that this assumption is strong, since the victim may choose any learning algorithm to train the model as long as it can achieve some targeted performance on clean data. Empirically, we observe a large decrease in the effectiveness of prior poisoning attacks if the victim uses a different learning paradigm to train the model and show marked differences in frequency-level characteristics between perturbations generated with respect to different learners and attack methods. To enhance the attack transferability, we propose Transferable Poisoning, which generates high-frequency poisoning perturbations by alternately leveraging the gradient information with two specific algorithms selected from supervised and unsupervised contrastive learning paradigms. Through extensive experiments on benchmark image datasets, we show that our transferable poisoning attack can produce poisoned samples with significantly improved transferability, not only applicable to the two learners used to devise the attack but also for learning algorithms and even paradigms beyond.
翻訳日:2023-10-12 12:16:13 公開日:2023-10-08
# 共感応答生成のための大規模言語モデルのパワー活用--実証的研究と改善

Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements ( http://arxiv.org/abs/2310.05140v1 )

ライセンス: Link先を確認
Yushan Qian, Wei-Nan Zhang, Ting Liu(参考訳) 共感的対話は、調和した社会的関係を構築するのに必要な部分であり、有用なAIの開発に寄与する。 従来のアプローチは主に小さな言語モデルに基づいていた。 ChatGPTの出現により、この分野における大規模言語モデル(LLM)の適用効果に大きな注目を集めている。 本研究は,共感応答生成におけるllmの性能を実証的に検討し,意味的に類似する文脈内学習,2段階対話生成,知識ベースとの組合せによる3つの改善手法を提案する。 大規模な実験により, LLM は提案手法の利点を大いに生かし, 自動評価と人的評価の両面で最先端の性能を達成することができることがわかった。 また,GPT-4によるヒト評価の可能性についても検討した。

Empathetic dialogue is an indispensable part of building harmonious social relationships and contributes to the development of a helpful AI. Previous approaches are mainly based on fine small-scale language models. With the advent of ChatGPT, the application effect of large language models (LLMs) in this field has attracted great attention. This work empirically investigates the performance of LLMs in generating empathetic responses and proposes three improvement methods of semantically similar in-context learning, two-stage interactive generation, and combination with the knowledge base. Extensive experiments show that LLMs can significantly benefit from our proposed methods and is able to achieve state-of-the-art performance in both automatic and human evaluations. Additionally, we explore the possibility of GPT-4 simulating human evaluators.
翻訳日:2023-10-12 12:15:50 公開日:2023-10-08
# 木状グラフ上のフラクショナル・ヘドニックゲームにおける実用的・平等的福祉の最大化

Maximizing Utilitarian and Egalitarian Welfare of Fractional Hedonic Games on Tree-like Graphs ( http://arxiv.org/abs/2310.05139v1 )

ライセンス: Link先を確認
Tesshu Hanaka, Airi Ikeyama, Hirotaka Ono(参考訳) フラクショナル・ヘドニック・ゲーム(英: Fractional Hedonic game)は、プレイヤーの効用が彼らの連合のメンバーに割り当てる平均値によって決定される連立ゲームである。 これらのゲームはグラフヘドニックゲーム(英語版)の変種であり、簡潔に表現できる連立形成ゲームの一類である。 ネットワーククラスタリングの適用性やグラフヘドニックゲームとの関係から、分数ヘドニックゲームは様々な観点から広く研究されてきた。 しかし、分数的ヘドニックゲームにおける福祉最大化パーティションの発見は、ユーティリティの非線形性のために難しい課題である。 実際、NPハードであることが証明されており、木のような限られた数のグラフクラスに対してのみ多項式時間で解ける。 本稿では,木様グラフ上の分数ヘドニックゲームにおける福祉最大化パーティションを計算するために,pseudo多項時間アルゴリズムを提案する。 我々は、実用主義と平等主義の2つの社会福祉対策を考える。 木のようなグラフは、有界木幅グラフとブロックグラフを持つグラフを指す。 P$\neq$NP という仮定の下では、擬ポリノミアル時間可解性が最良であることを示す硬度結果が提供される。

Fractional hedonic games are coalition formation games where a player's utility is determined by the average value they assign to the members of their coalition. These games are a variation of graph hedonic games, which are a class of coalition formation games that can be succinctly represented. Due to their applicability in network clustering and their relationship to graph hedonic games, fractional hedonic games have been extensively studied from various perspectives. However, finding welfare-maximizing partitions in fractional hedonic games is a challenging task due to the nonlinearity of utilities. In fact, it has been proven to be NP-hard and can be solved in polynomial time only for a limited number of graph classes, such as trees. This paper presents (pseudo)polynomial-time algorithms to compute welfare-maximizing partitions in fractional hedonic games on tree-like graphs. We consider two types of social welfare measures: utilitarian and egalitarian. Tree-like graphs refer to graphs with bounded treewidth and block graphs. A hardness result is provided, demonstrating that the pseudopolynomial-time solvability is the best possible under the assumption P$\neq$NP.
翻訳日:2023-10-12 12:15:36 公開日:2023-10-08
# エミリーとグレッグはいまだにラキシャとジャマルよりも雇用可能か? ChatGPT時代のアルゴリズム採用バイアスの調査

Are Emily and Greg Still More Employable than Lakisha and Jamal? Investigating Algorithmic Hiring Bias in the Era of ChatGPT ( http://arxiv.org/abs/2310.05135v1 )

ライセンス: Link先を確認
Akshaj Kumar Veldanda, Fabian Grob, Shailja Thakur, Hammond Pearce, Benjamin Tan, Ramesh Karri, Siddharth Garg(参考訳) gpt-3.5、bard、claudeといった大規模言語モデル(llm)は、様々なタスクに適用可能である。 興味のある分野の1つは、アルゴリズムの雇用、特に履歴書と職種を合わせることである。 しかし、これは性別、人種、母性といった保護された属性に偏りをもたらす。 Bertrand & Mullainathan (2003) のセミナルな研究は、エミリーやラキシャのような人種的に推奨される名前のような保護された属性でのみ異なる同一の履歴書に対する応答率が比較されるフィールド実験を通じて、雇用バイアスを特定するための金の基準を定めている。 我々は、この実験を最先端のLSM(GPT-3.5, Bard, Claude, Llama)で再現し、性別、人種、母性状態、妊娠状態、および政治的関連性に対する偏見(またはその欠如)を評価する。 我々は,(1)履歴書と業務カテゴリのマッチング,(2)履歴書と業務関連情報の要約という2つのタスクについてllmを評価する。 総じて、LSMは人種や性別で堅牢である。 彼らは妊娠状態と政治的親戚関係におけるパフォーマンスが異なる。 オープンソースLLMのコントラスト型入力復号法を用いてバイアスの発生源を明らかにする。

Large Language Models (LLMs) such as GPT-3.5, Bard, and Claude exhibit applicability across numerous tasks. One domain of interest is their use in algorithmic hiring, specifically in matching resumes with job categories. Yet, this introduces issues of bias on protected attributes like gender, race and maternity status. The seminal work of Bertrand & Mullainathan (2003) set the gold-standard for identifying hiring bias via field experiments where the response rate for identical resumes that differ only in protected attributes, e.g., racially suggestive names such as Emily or Lakisha, is compared. We replicate this experiment on state-of-art LLMs (GPT-3.5, Bard, Claude and Llama) to evaluate bias (or lack thereof) on gender, race, maternity status, pregnancy status, and political affiliation. We evaluate LLMs on two tasks: (1) matching resumes to job categories; and (2) summarizing resumes with employment relevant information. Overall, LLMs are robust across race and gender. They differ in their performance on pregnancy status and political affiliation. We use contrastive input decoding on open-source LLMs to uncover potential sources of bias.
翻訳日:2023-10-12 12:13:52 公開日:2023-10-08
# LocoNeRF: 精密局所化のための運動からの局所構造に対するNeRFに基づくアプローチ

LocoNeRF: A NeRF-based Approach for Local Structure from Motion for Precise Localization ( http://arxiv.org/abs/2310.05134v1 )

ライセンス: Link先を確認
Artem Nenashev, Mikhail Kurenkov, Andrei Potapov, Iana Zhura, Maksim Katerishich, and Dzmitry Tsetserukou(参考訳) 視覚的ローカライゼーションはモバイルロボティクスにおいて重要な課題であり、研究者はその効率を高めるための新しいアプローチを継続的に開発している。 本稿では,Structure from Motion (SfM) 技術を用いた視覚的位置決めの精度向上のための新しい手法を提案する。 我々は,高レイテンシに悩まされるグローバルSfMの限界と,大規模な画像データベースを必要とするローカルSfMの課題を強調した。 これらの問題に対処するために,画像データベースとは対照的にNeural Radiance Fields (NeRF) を用いて,記憶に必要な空間を削減することを提案する。 先行する問合せ位置における参照画像のサンプリングにより,さらなる改善が期待できる。 LIDARとAdvanced Lidar Odometry and Mapping in Real-time (A-LOAM)を用いて得られた地中真実に対する提案手法の精度を評価し, 実測実験における局所SfMとCOLMAPとの比較を行った。 提案手法は地上の真理と比較して0.068mの精度を実現しており,精度は0.022mのCOLMAPよりもわずかに低い。 しかし、COLMAPに必要なデータベースのサイズは400メガバイトであり、NeRFモデルのサイズは160メガバイトに過ぎない。 最後に, nerf再構成の基準画像による影響を評価するため, アブレーション研究を行った。

Visual localization is a critical task in mobile robotics, and researchers are continuously developing new approaches to enhance its efficiency. In this article, we propose a novel approach to improve the accuracy of visual localization using Structure from Motion (SfM) techniques. We highlight the limitations of global SfM, which suffers from high latency, and the challenges of local SfM, which requires large image databases for accurate reconstruction. To address these issues, we propose utilizing Neural Radiance Fields (NeRF), as opposed to image databases, to cut down on the space required for storage. We suggest that sampling reference images around the prior query position can lead to further improvements. We evaluate the accuracy of our proposed method against ground truth obtained using LIDAR and Advanced Lidar Odometry and Mapping in Real-time (A-LOAM), and compare its storage usage against local SfM with COLMAP in the conducted experiments. Our proposed method achieves an accuracy of 0.068 meters compared to the ground truth, which is slightly lower than the most advanced method COLMAP, which has an accuracy of 0.022 meters. However, the size of the database required for COLMAP is 400 megabytes, whereas the size of our NeRF model is only 160 megabytes. Finally, we perform an ablation study to assess the impact of using reference images from the NeRF reconstruction.
翻訳日:2023-10-12 12:13:28 公開日:2023-10-08
# 3次元意味セグメンテーションのための幾何を考慮したフィールド・ツー・フィールド変換

Geometry Aware Field-to-field Transformations for 3D Semantic Segmentation ( http://arxiv.org/abs/2310.05133v1 )

ライセンス: Link先を確認
Dominik Hollidt, Clinton Wang, Polina Golland, Marc Pollefeys(参考訳) 本稿では,Neural Radiance Fields (NeRFs) を利用した2次元監視からのみ3次元セマンティックセマンティックセマンティクスを実現する手法を提案する。 表面点雲に沿って特徴を抽出することで,サンプル効率が良く,かつ3次元推論に寄与するシーンのコンパクトな表現を実現する。 マスク付きオートエンコーディングにより、この特徴空間を教師なしで学習することで、少数ショットセグメンテーションが可能になる。 本手法はシーンパラメータ化に非依存であり,どのタイプのNeRFにも適合するシーンで作業する。

We present a novel approach to perform 3D semantic segmentation solely from 2D supervision by leveraging Neural Radiance Fields (NeRFs). By extracting features along a surface point cloud, we achieve a compact representation of the scene which is sample-efficient and conducive to 3D reasoning. Learning this feature space in an unsupervised manner via masked autoencoding enables few-shot segmentation. Our method is agnostic to the scene parameterization, working on scenes fit with any type of NeRF.
翻訳日:2023-10-12 12:13:04 公開日:2023-10-08
# Fast-DetectGPT:条件付き確率曲線による機械生成テキストの効率的なゼロショット検出

Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature ( http://arxiv.org/abs/2310.05130v1 )

ライセンス: Link先を確認
Guangsheng Bao, Yanbin Zhao, Zhiyang Teng, Linyi Yang, Yue Zhang(参考訳) 大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生み出す能力を示し、生産性の機会と社会的リスクの両方を提示している。 信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。 最上位のゼロショット検出器である DetectGPT は、高い性能を示すが、その計算コストに悩まされている。 本稿では,条件付き確率曲率の概念を導入し,与えられた文脈内でllmと人間の単語選択の相違を解明する。 この曲率を基本距離として、より効率的なサンプリングステップで検出GPTの摂動ステップを置き換える最適化されたゼロショット検出器であるFast-DetectGPTを提案する。 各種データセット,ソースモデル,テスト条件の評価から,Fast-DetectGPTは,White-box設定とBlack-box設定の両方でTectGPTより優れるだけでなく,TectGPTの検出プロセスを340倍高速化することがわかった。

Large language models (LLMs) have shown the ability to produce fluent and cogent content, presenting both productivity opportunities and societal risks. To build trustworthy AI systems, it is imperative to distinguish between machine-generated and human-authored content. The leading zero-shot detector, DetectGPT, showcases commendable performance but is marred by its intensive computational costs. In this paper, we introduce the concept of conditional probability curvature to elucidate discrepancies in word choices between LLMs and humans within a given context. Utilizing this curvature as a foundational metric, we present Fast-DetectGPT, an optimized zero-shot detector, which substitutes DetectGPT's perturbation step with a more efficient sampling step. Our evaluations on various datasets, source models, and test conditions indicate that Fast-DetectGPT not only outperforms DetectGPT in both the white-box and black-box settings but also accelerates the detection process by a factor of 340, as detailed in Table 1.
翻訳日:2023-10-12 12:12:53 公開日:2023-10-08
# 逆関係理解におけるLLMの有効性の検討

An Investigation of LLMs' Inefficacy in Understanding Converse Relations ( http://arxiv.org/abs/2310.05163v1 )

ライセンス: Link先を確認
Chengwen Qi, Bowen Li, Binyuan Hui, Bailin Wang, Jinyang Li, Jinwang Wu, Yuanjun Laili(参考訳) 大規模言語モデル(llm)は、構造的データ・ツー・テキストや意味解析など、多くの形式言語指向タスクで顕著な成功を収めている。 しかし、現在のベンチマークは主にLLMの事前学習データのデータ分布に従っている。 したがって、LLMが形式言語の構造化意味論を本当に理解しているという自然な疑問が生じる。 本稿では,この問題を特殊ケース,逆二項関係で検討する。 一般的な知識グラフ補完データセットから抽出された17の関係と1240のトリプルを含む逆関係に着目した新しいベンチマークであるConvReを紹介する。 re2text と text2re の2つのタスクを特徴としており、llms が関連テキストとのマッチングを決定する能力を評価するために、マルチチョイス質問応答として定式化されている。 評価プロトコルについては,異なるプロンプト方法とは別に,テストテキストとサンプルテキストの変種についても紹介する。 我々は3つのLLMファミリーで実験を行い、様々なスケーリング傾向を観察した。 この結果から,LLMは学習時間を短縮し,提案したベンチマークの課題に直面していることが示唆された。

Large Language Models (LLMs) have achieved remarkable success in many formal language oriented tasks, such as structural data-to-text and semantic parsing. However current benchmarks mostly follow the data distribution of the pre-training data of LLMs. Therefore, a natural question rises that do LLMs really understand the structured semantics of formal languages. In this paper, we investigate this problem on a special case, converse binary relation. We introduce a new benchmark ConvRe focusing on converse relations, which contains 17 relations and 1240 triples extracted from popular knowledge graph completion datasets. Our ConvRE features two tasks, Re2Text and Text2Re, which are formulated as multi-choice question answering to evaluate LLMs' ability to determine the matching between relations and associated text. For the evaluation protocol, apart from different prompting methods, we further introduce variants to the test text and few-shot example text. We conduct experiments on three popular LLM families and have observed various scaling trends. The results suggest that LLMs often resort to shortcut learning and still face challenges on our proposed benchmark.
翻訳日:2023-10-12 12:07:15 公開日:2023-10-08
# 確率的有限状態オートマトンとしてのリカレントニューラルネットワークモデル

Recurrent Neural Language Models as Probabilistic Finite-state Automata ( http://arxiv.org/abs/2310.05161v1 )

ライセンス: Link先を確認
Anej Svete, Ryan Cotterell(参考訳) 言語モデル(lms)を十分に理解された形式主義の観点から研究することで、その能力と限界を正確に特徴づけることができる。 前回の研究では、非重み付き形式言語を認識する能力の観点から、recurrent neural network (rnn) lmsの表現能力を調査した。 しかし、LMは非重みのない形式言語を記述せず、むしろ文字列上の確率分布を定義する。 本研究では,RNN LMが表現できる確率分布のクラスについて検討する。 単純RNNは確率的有限状態オートマトンの部分クラスと等価であり、したがって有限状態モデルで表現可能な確率分布の厳密な部分集合をモデル化できることを示す。 さらに, 有限状態LMをRNNで表現する空間複雑性について検討した。 任意の決定論的有限状態LMをアルファベット$\Sigma$上の$N$状態で表現するために、RNNは$\Omega\left(N |\Sigma|\right)$ニューロンを必要とする。 これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示し、その能力と限界を理解するのに役立ちます。

Studying language models (LMs) in terms of well-understood formalisms allows us to precisely characterize their abilities and limitations. Previous work has investigated the representational capacity of recurrent neural network (RNN) LMs in terms of their capacity to recognize unweighted formal languages. However, LMs do not describe unweighted formal languages -- rather, they define probability distributions over strings. In this work, we study what classes of such probability distributions RNN LMs can represent, which allows us to make more direct statements about their capabilities. We show that simple RNNs are equivalent to a subclass of probabilistic finite-state automata, and can thus model a strict subset of probability distributions expressible by finite-state models. Furthermore, we study the space complexity of representing finite-state LMs with RNNs. We show that, to represent an arbitrary deterministic finite-state LM with $N$ states over an alphabet $\Sigma$, an RNN requires $\Omega\left(N |\Sigma|\right)$ neurons. These results present a first step towards characterizing the classes of distributions RNN LMs can represent and thus help us understand their capabilities and limitations.
翻訳日:2023-10-12 12:06:55 公開日:2023-10-08
# ITRE:照明透過率推定に基づく低照度画像強調

ITRE: Low-light Image Enhancement Based on Illumination Transmission Ratio Estimation ( http://arxiv.org/abs/2310.05158v1 )

ライセンス: Link先を確認
Yu Wang, Yihong Wang, Tong Liu, Xiubao Sui, Qian Chen(参考訳) ノイズ、アーティファクト、過剰露光は低照度画像強調の分野で重要な課題である。 既存の手法はしばしばこれらの問題を解決するのに苦労する。 本稿では,モデルの起源からノイズやアーティファクトを抑圧し,拡張過程を通じて過度の露光を防止する新しいretinexベースの手法であるitreを提案する。 具体的には、同じ色の画素の中で低光量に邪魔されない画素が存在する必要があると仮定する。 まず、RGB色空間上のピクセルをクラスタリングして、画像全体のイルミネーション透過率(ITR)行列を見つけ、ノイズが過度に増幅されないことを判断する。 次に,画像のITRを初期照明透過マップとみなして,改良された透過マップのベースモデルを構築し,アーチファクトを防止する。 さらに,pixelのオーバーエクスポージャーの基本特性をキャプチャし,ベースモデルにシームレスに統合するオーバーエクスポージャーモジュールを設計した。 最後に、同じ色を持つ画素のクラス間距離が小さすぎると弱くなる可能性がある。 これに対抗するために、画像強調処理の堅牢性を保護するRobust-Guardモジュールを設計する。 広汎な実験により, 騒音抑制, アーティファクト防止, 露光量の同時制御におけるアプローチの有効性が示された。 本手法は,最先端手法と比較して質的,定量的な性能評価において優れている。

Noise, artifacts, and over-exposure are significant challenges in the field of low-light image enhancement. Existing methods often struggle to address these issues simultaneously. In this paper, we propose a novel Retinex-based method, called ITRE, which suppresses noise and artifacts from the origin of the model, prevents over-exposure throughout the enhancement process. Specifically, we assume that there must exist a pixel which is least disturbed by low light within pixels of same color. First, clustering the pixels on the RGB color space to find the Illumination Transmission Ratio (ITR) matrix of the whole image, which determines that noise is not over-amplified easily. Next, we consider ITR of the image as the initial illumination transmission map to construct a base model for refined transmission map, which prevents artifacts. Additionally, we design an over-exposure module that captures the fundamental characteristics of pixel over-exposure and seamlessly integrate it into the base model. Finally, there is a possibility of weak enhancement when inter-class distance of pixels with same color is too small. To counteract this, we design a Robust-Guard module that safeguards the robustness of the image enhancement process. Extensive experiments demonstrate the effectiveness of our approach in suppressing noise, preventing artifacts, and controlling over-exposure level simultaneously. Our method performs superiority in qualitative and quantitative performance evaluations by comparing with state-of-the-art methods.
翻訳日:2023-10-12 12:06:34 公開日:2023-10-08
# MenatQA: 大規模言語モデルの時間的理解と推論能力をテストするための新しいデータセット

MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2310.05157v1 )

ライセンス: Link先を確認
Yifan Wei, Yisong Su, Huanhuan Ma, Xiaoyan Yu, Fangyu Lei, Yuanzhe Zhang, Jun Zhao, Kang Liu(参考訳) 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクでほぼ飽和性能を示した。 結果として、llmが時間理解や推論といった能力も習得していると考えるのは自然である。 しかし,LLMの時間感度に関する研究は不十分である。 このギャップを埋めるために,LLMの時間的理解と推論能力を評価するために,3つの時間的要因(スコープ係数,オーダーファクタ,ファクトファクトファクトファクタ)を含む多感的因子時間QA(MenatQA)を構築した。 本稿では、数十億から数十億のパラメータサイズで、現在主流のLLMを試験する。 その結果、ほとんどのLSMは、これらの要因の程度が異なる、より小さな時間的推論モデルより遅れていることがわかった。 LLMは時間的バイアスに重大な脆弱性を示し、質問に提供される時間的情報に大きく依存する。 さらに,具体的プロンプトを考案し,外部ツールを活用することにより,潜在的な改善戦略について予備的な検討を行う。 これらのアプローチは、将来の研究努力の基準や参考となる。

Large language models (LLMs) have shown nearly saturated performance on many natural language processing (NLP) tasks. As a result, it is natural for people to believe that LLMs have also mastered abilities such as time understanding and reasoning. However, research on the temporal sensitivity of LLMs has been insufficiently emphasized. To fill this gap, this paper constructs Multiple Sensitive Factors Time QA (MenatQA), which encompasses three temporal factors (scope factor, order factor, counterfactual factor) with total 2,853 samples for evaluating the time comprehension and reasoning abilities of LLMs. This paper tests current mainstream LLMs with different parameter sizes, ranging from billions to hundreds of billions. The results show most LLMs fall behind smaller temporal reasoning models with different degree on these factors. In specific, LLMs show a significant vulnerability to temporal biases and depend heavily on the temporal information provided in questions. Furthermore, this paper undertakes a preliminary investigation into potential improvement strategies by devising specific prompts and leveraging external tools. These approaches serve as valuable baselines or references for future research endeavors.
翻訳日:2023-10-12 12:06:10 公開日:2023-10-08
# toolink: オープンソースモデルのチェーン・オブ・ソルバによるツールキットの作成と利用

Toolink: Linking Toolkit Creation and Using through Chain-of-Solving on Open-Source Model ( http://arxiv.org/abs/2310.05155v1 )

ライセンス: Link先を確認
Cheng Qian, Chenyan Xiong, Zhenghao Liu, Zhiyuan Liu(参考訳) 大規模言語モデル(llm)はツールの利用において著しい進歩を示しているが、そのクローズドソースの性質と高い推論コストは適応性に限界をもたらし、より小さなオープンソースモデルを活用する有効な方法を必要としている。 本稿では,まずツールキットを作成し,次にchain-of-solving (cos) アプローチによるツールの計画と呼び出しを統合することでタスク解決を行う包括的フレームワークであるtoolinkを紹介する。 まず,ChatGPT上でのモデルの創造性とCoS能力を活用したツールリンクの有効性を検証する。 その後、ツール使用のためのチェーンオブソーシングデータセットであるCoS-GPTをキュレートし、LLaMA-7Bモデルを微調整する。 その結果、高度なツールプランニングとツールコール機能を備えた強力なオープンソースモデルであるLLaMA-CoSが実現した。 BIG-benchによる多様なタスクの評価では、CoSの能力はChatGPTに匹敵するが、その性能はチェーン・オブ・思想的アプローチを上回る。 さらなる研究は、LLaMA-CoSの未確認タスクへの一般化を強調し、ターゲットタスクに明示的に適合しないツールキットの使用能力を示し、現実のシナリオにおける堅牢性を確認している。 すべてのコードとデータがリリースされる。

Large Language Models (LLMs) have demonstrated remarkable progress in utilizing tools, but their closed-source nature and high inference costs pose limitations on their adaptability, necessitating a valid method that leverages smaller, open-sourced models. In this paper, we introduce Toolink, a comprehensive framework that performs task-solving by first creating a toolkit and then integrating the planning and calling of tools through a chain-of-solving (CoS) approach. We first validate the efficacy of Toolink in harnessing the model's creativity and CoS ability on ChatGPT. Subsequently, we curate CoS-GPT, a chain-of-solving dataset designed for tool-using, and finetune the LLaMA-7B model. It results in LLaMA-CoS, a powerful open-source model with advanced tool-planning and tool-calling capabilities. Evaluation on diverse tasks from BIG-bench demonstrates its CoS ability matches that of ChatGPT while its performance surpasses the chain-of-thought approach. Further studies highlight the generalization of LLaMA-CoS to unseen tasks and showcase its capability in using toolkits not explicitly tailored for the target task, affirming its robustness in real-world scenarios. All codes and data are released.
翻訳日:2023-10-12 12:05:52 公開日:2023-10-08
# データから対話へ:会話探索のための知識グラフの構造を活用する

From Data to Dialogue: Leveraging the Structure of Knowledge Graphs for Conversational Exploratory Search ( http://arxiv.org/abs/2310.05150v1 )

ライセンス: Link先を確認
Phillip Schneider, Nils Rehtanz, Kristiina Jokinen and Florian Matthes(参考訳) 探索探索(Exploratory search)は、特定の回答や情報を探すのではなく、トピックやドメインに関する知識を発見することを目的とした、オープンな情報検索プロセスである。 対話型インタフェースは探索検索をサポートするのに特に適しており、ユーザーはクエリを洗練し、対話型対話を通して検索結果を調べることができる。 対話型検索インタフェースに加えて、知識グラフは、データ項目の豊かな意味表現による情報探索を支援するのにも有用である。 本研究では,知識グラフと対話インタフェースを組み合わせて探索探索を行い,構造化情報と非構造化情報とのギャップを埋めることによる相乗効果を示す。 そこで本稿では,自然言語質問とグラフ構造を用いて,関連トピック間をナビゲートすることで,ニュース記事を探索する知識駆動対話システムを提案する。 54名の参加者によるユーザ調査に基づいて,探索探索の有効性を実証的に評価し,システム開発における設計上の意義について考察した。

Exploratory search is an open-ended information retrieval process that aims at discovering knowledge about a topic or domain rather than searching for a specific answer or piece of information. Conversational interfaces are particularly suitable for supporting exploratory search, allowing users to refine queries and examine search results through interactive dialogues. In addition to conversational search interfaces, knowledge graphs are also useful in supporting information exploration due to their rich semantic representation of data items. In this study, we demonstrate the synergistic effects of combining knowledge graphs and conversational interfaces for exploratory search, bridging the gap between structured and unstructured information retrieval. To this end, we propose a knowledge-driven dialogue system for exploring news articles by asking natural language questions and using the graph structure to navigate between related topics. Based on a user study with 54 participants, we empirically evaluate the effectiveness of the graph-based exploratory search and discuss design implications for developing such systems.
翻訳日:2023-10-12 12:05:28 公開日:2023-10-08
# 大規模言語モデルの検索・生成

Retrieval-Generation Synergy Augmented Large Language Models ( http://arxiv.org/abs/2310.05149v1 )

ライセンス: Link先を確認
Zhangyin Feng, Xiaocheng Feng, Dezhi Zhao, Maojin Yang, Bing Qin(参考訳) タスク関連文書を付加した大規模言語モデルは、知識集約型タスクにおいて印象的なパフォーマンスを示した。 しかし、有効な文書の入手方法については、既存の手法は主に2つのカテゴリに分けられる。 1つは外部知識ベースから検索し、もう1つは大きな言語モデルを使って文書を生成することである。 本稿では,反復的検索生成協調フレームワークを提案する。 パラメトリックな知識と非パラメトリックな知識の両方を活用できるだけでなく、多段階の推論を必要とするタスクにとって非常に重要な、検索と生成の相互作用を通じて正しい推論経路を見つけるのに役立つ。 シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。 実験の結果,提案手法は大規模言語モデルの推論能力を大幅に向上し,従来のベースラインよりも優れていた。

Large language models augmented with task-relevant documents have demonstrated impressive performance on knowledge-intensive tasks. However, regarding how to obtain effective documents, the existing methods are mainly divided into two categories. One is to retrieve from an external knowledge base, and the other is to utilize large language models to generate documents. We propose an iterative retrieval-generation collaborative framework. It is not only able to leverage both parametric and non-parametric knowledge, but also helps to find the correct reasoning path through retrieval-generation interactions, which is very important for tasks that require multi-step reasoning. We conduct experiments on four question answering datasets, including single-hop QA and multi-hop QA tasks. Empirical results show that our method significantly improves the reasoning ability of large language models and outperforms previous baselines.
翻訳日:2023-10-12 12:05:11 公開日:2023-10-08
# 複数のエキスパートエージェントのシステムとしての大規模言語モデル(llm):抽象推論コーパス(arc)の課題を解決するためのアプローチ

Large Language Model (LLM) as a System of Multiple Expert Agents: An Approach to solve the Abstraction and Reasoning Corpus (ARC) Challenge ( http://arxiv.org/abs/2310.05146v1 )

ライセンス: Link先を確認
John Chong Min Tan, Mehul Motani(参考訳) 複数の専門家のシステムとして大規模言語モデル(LLM)を用いたARC(Abstraction and Reasoning Corpus)チャレンジの解決を試みる。 ゼロショット, 少数ショット, コンテキストグラウンドのプロンプトを用いて, LLMの柔軟性を利用して, ARCチャレンジの解決の可能性を探る。 まず、入力画像を複数の適切なテキストベース抽象空間に変換する。 次に、入力出力関係を導出するためにllmの連想力を活用し、マインクラフトのボイジャー/ゴーストのように動作するプログラムの形式でこれをアクションにマッピングします。 また,LLMを誘導して課題を解決するために,反復的な環境フィードバックを用いる。 提案手法は,3つの抽象空間 – グリッド,オブジェクト,ピクセル – で,111のトレーニングセット問題(45%)のうち50の問題を解決する。

We attempt to solve the Abstraction and Reasoning Corpus (ARC) Challenge using Large Language Models (LLMs) as a system of multiple expert agents. Using the flexibility of LLMs to be prompted to do various novel tasks using zero-shot, few-shot, context-grounded prompting, we explore the feasibility of using LLMs to solve the ARC Challenge. We firstly convert the input image into multiple suitable text-based abstraction spaces. We then utilise the associative power of LLMs to derive the input-output relationship and map this to actions in the form of a working program, similar to Voyager / Ghost in the MineCraft. In addition, we use iterative environmental feedback in order to guide LLMs to solve the task. Our proposed approach achieves 50 solves out of 111 training set problems (45%) with just three abstraction spaces - grid, object and pixel - and we believe that with more abstraction spaces and learnable actions, we will be able to solve more.
翻訳日:2023-10-12 12:04:58 公開日:2023-10-08
# NeuralFastLAS: 生データから高速な論理ベースの学習

NeuralFastLAS: Fast Logic-Based Learning from Raw Data ( http://arxiv.org/abs/2310.05145v1 )

ライセンス: Link先を確認
Theo Charalambous, Yaniv Aspis, Alessandra Russo(参考訳) シンボリックルール学習者は解釈可能な解を生成するが、入力をシンボル的にエンコードする必要がある。 ニューラルネットワークを用いて生データを潜在記号の概念にマッピングすることで、ニューロシンボリックアプローチはこの問題を克服する。 ニューラルネットワークとシンボリックコンポーネントを共同でトレーニングするのは、遅くて不安定な学習のため難しいため、既存のシステムの多くは、ネットワークをトレーニングするために手動のルールに依存している。 neuralfastlasは、ニューラルネットワークをシンボリック学習者と共同でトレーニングする、スケーラブルで高速なエンドツーエンドアプローチである。 与えられたタスクに対して、NeuralFastLASは関連するルールのセットを計算し、最適なシンボリックソリューションを含むことを証明し、これらのルールを使用してニューラルネットワークをトレーニングし、最終的にネットワーク予測を考慮してタスクに対する最適なシンボリックソリューションを見つける。 このアプローチの重要な特徴は、トレーニング中の安定性を改善するためにニューラルネットワークをトレーニングしながら、ルールの後方分布を学習することである。 最終解の正しさを保証するために,ネットワークトレーニングにおける十分な条件に関する理論的結果を提供する。 実験の結果,neuralfastlasは算術や論理的なタスクにおいて最先端の精度を実現でき,訓練時間は,他の共同学習したニューロシンボリック法よりも最大2桁速いことがわかった。

Symbolic rule learners generate interpretable solutions, however they require the input to be encoded symbolically. Neuro-symbolic approaches overcome this issue by mapping raw data to latent symbolic concepts using a neural network. Training the neural and symbolic components jointly is difficult, due to slow and unstable learning, hence many existing systems rely on hand-engineered rules to train the network. We introduce NeuralFastLAS, a scalable and fast end-to-end approach that trains a neural network jointly with a symbolic learner. For a given task, NeuralFastLAS computes a relevant set of rules, proved to contain an optimal symbolic solution, trains a neural network using these rules, and finally finds an optimal symbolic solution to the task while taking network predictions into account. A key novelty of our approach is learning a posterior distribution on rules while training the neural network to improve stability during training. We provide theoretical results for a sufficient condition on network training to guarantee correctness of the final solution. Experimental results demonstrate that NeuralFastLAS is able to achieve state-of-the-art accuracy in arithmetic and logical tasks, with a training time that is up to two orders of magnitude faster than other jointly trained neuro-symbolic methods.
翻訳日:2023-10-12 12:04:38 公開日:2023-10-08
# ZooPFL: 個人化フェデレーション学習のためのブラックボックス基礎モデル

ZooPFL: Exploring Black-box Foundation Models for Personalized Federated Learning ( http://arxiv.org/abs/2310.05143v1 )

ライセンス: Link先を確認
Wang Lu, Hao Yu, Jindong Wang, Damien Teney, Haohan Wang, Yiqiang Chen, Qiang Yang, Xing Xie, Xiangyang Ji(参考訳) パーソナライズド・フェデレーション・ラーニング(FL)が大きな基礎モデルを満たすと、リソースの様々な制限から新たな課題が発生する。 データ、計算、通信コストといった典型的な制限に加えて、モデルへのアクセスも制限されることが多い。 本稿では,資源制限とパーソナライゼーションの課題を解決する。 つまり クライアント間の分配のシフトです そこで本研究では,分散学習にゼロ次最適化を用いたzoopflという手法を提案する。 ZOOPFLはファンデーションモデルとの直接的な干渉を避け、代わりにゼロ階最適化によってインプットに適応することを学ぶ。 さらに, 単純かつ効果的な線形射影を用いて, パーソナライズのための予測をリマップする。 計算コストの削減とパーソナライゼーションの向上を目的として,低次元およびクライアント固有の埋め込みを持つオートエンコーダを組み込む入力手術を提案する。 ZOOPFLの収束解析に対する理論的支援を提供する。 一般的な基礎モデルを用いたコンピュータビジョンおよび自然言語処理タスクに関する広範な実証実験は、ブラックボックス基礎モデルにおけるflの有効性を示している。

When personalized federated learning (FL) meets large foundation models, new challenges arise from various limitations in resources. In addition to typical limitations such as data, computation, and communication costs, access to the models is also often limited. This paper endeavors to solve both the challenges of limited resources and personalization. i.e., distribution shifts between clients. To do so, we propose a method named ZOOPFL that uses Zeroth-Order Optimization for Personalized Federated Learning. ZOOPFL avoids direct interference with the foundation models and instead learns to adapt its inputs through zeroth-order optimization. In addition, we employ simple yet effective linear projections to remap its predictions for personalization. To reduce the computation costs and enhance personalization, we propose input surgery to incorporate an auto-encoder with low-dimensional and client-specific embeddings. We provide theoretical support for ZOOPFL to analyze its convergence. Extensive empirical experiments on computer vision and natural language processing tasks using popular foundation models demonstrate its effectiveness for FL on black-box foundation models.
翻訳日:2023-10-12 12:04:01 公開日:2023-10-08
# Outlier Weighed Layerwise Sparsity (OWL) : LLMを高スパシティに加工するための秘密の欠如

Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity ( http://arxiv.org/abs/2310.05175v1 )

ライセンス: Link先を確認
Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia, Mykola Pechenizkiy, Yi Liang, Zhangyang Wang, Shiwei Liu(参考訳) 大きな言語モデル(LLM)は、その顕著なパフォーマンスで有名ですが、実際のデプロイメントに関しては、その余計なモデルサイズのため、課題があります。 この課題に対応するため、従来のネットワークプルーニング手法をLCMに適用する取り組みが進められており、大量のパラメータを1ショットでプルーニングすることができ、性能を損なわない。 LLM 以前のモデルから得られた知見に基づいて、LLM プルーニング戦略は、同等の間隔で全ての層を均一にプルーニングするプラクティスに一貫して従っている。 しかし、この観察は、非一様層状空間が典型的に顕著に改善された結果をもたらす視覚モデルにおける一般的な傾向とは対照的である。 この相違の原因を明らかにするため, LLMにおけるトークンの特徴分布の包括的解析を行った。 その結果,外乱の出現と強い相関関係がみられ,特徴次元における外乱の出現は特徴量に比べて著しく大きいことが判明した。 この発見に触発されて,llmプルーニング用に特別に設計された不均一な層別スパルジ率のセットを組み込んだ新しいllmプルーニング手法を,outlier weighted layerwise sparsity (owl) として紹介する。 OWLの疎度比は各層で観測される外層比と直接比例し, 層間重量の疎度と外層比とのより効果的な整合を容易にする。 LLaMA-V1ファミリーにまたがって実施した経験的評価と,様々なベンチマークにまたがるOPTは,OWLが従来手法よりも優れていることを示す。 例えば、我々の手法は、最先端のWandaとSparseGPTをそれぞれ61.22倍、6.80パープレキシティを70%高頻度で上回り、顕著な性能向上を示した。

Large Language Models (LLMs), renowned for their remarkable performance, present a challenge due to their colossal model size when it comes to practical deployment. In response to this challenge, efforts have been directed toward the application of traditional network pruning techniques to LLMs, uncovering a massive number of parameters can be pruned in one-shot without hurting performance. Building upon insights gained from pre-LLM models, prevailing LLM pruning strategies have consistently adhered to the practice of uniformly pruning all layers at equivalent sparsity. However, this observation stands in contrast to the prevailing trends observed in the field of vision models, where non-uniform layerwise sparsity typically yields substantially improved results. To elucidate the underlying reasons for this disparity, we conduct a comprehensive analysis of the distribution of token features within LLMs. In doing so, we discover a strong correlation with the emergence of outliers, defined as features exhibiting significantly greater magnitudes compared to their counterparts in feature dimensions. Inspired by this finding, we introduce a novel LLM pruning methodology that incorporates a tailored set of non-uniform layerwise sparsity ratios specifically designed for LLM pruning, termed as Outlier Weighed Layerwise sparsity (OWL). The sparsity ratio of OWL is directly proportional to the outlier ratio observed within each layer, facilitating a more effective alignment between layerwise weight sparsity and outlier ratios. Our empirical evaluation, conducted across the LLaMA-V1 family and OPT, spanning various benchmarks, demonstrates the distinct advantages offered by OWL over previous methods. For instance, our approach exhibits a remarkable performance gain, surpassing the state-of-the-art Wanda and SparseGPT by 61.22 and 6.80 perplexity at a high sparsity level of 70%, respectively.
翻訳日:2023-10-12 11:56:04 公開日:2023-10-08
# GSLB: グラフ構造学習ベンチマーク

GSLB: The Graph Structure Learning Benchmark ( http://arxiv.org/abs/2310.05174v1 )

ライセンス: Link先を確認
Zhixun Li, Liang Wang, Xin Sun, Yifan Luo, Yanqiao Zhu, Dingshuo Chen, Yingtao Luo, Xiangxin Zhou, Qiang Liu, Shu Wu, Liang Wang, Jeffrey Xu Yu(参考訳) グラフ構造学習(GSL)は、グラフニューラルネットワーク(GNN)のパラメータと計算グラフ構造の両方を同時に最適化する能力のため、近年注目されている。 近年のGSL法の普及にもかかわらず、性能評価のための標準的な実験的設定や公正比較は存在せず、この分野の進歩を理解する上で大きな障害となっている。 このギャップを埋めるために、異なるシナリオにおけるGSLの性能を体系的に分析し、20のグラフデータセットと16の異なるGSLアルゴリズムからなる総合的なグラフ構造学習ベンチマーク(GSLB)を開発する。 具体的には、GSLBはGSLの特徴を3次元(有効性、堅牢性、複雑さ)で体系的に研究する。 我々は,最先端のgslアルゴリズムをノードレベルおよびグラフレベルのタスクで包括的に評価し,頑健な学習とモデルの複雑さでその性能を分析する。 さらに,再現性のある研究を容易にするため,異なるGSL法を訓練,評価,可視化するための簡易ライブラリを開発した。 広範な実験の結果,gslの能力が実証され,下流タスクにおける潜在的メリットが明らかにされ,今後の研究への洞察と機会が得られた。 GSLBのコードは、https://github.com/GSL-Benchmark/GSLBで公開されている。

Graph Structure Learning (GSL) has recently garnered considerable attention due to its ability to optimize both the parameters of Graph Neural Networks (GNNs) and the computation graph structure simultaneously. Despite the proliferation of GSL methods developed in recent years, there is no standard experimental setting or fair comparison for performance evaluation, which creates a great obstacle to understanding the progress in this field. To fill this gap, we systematically analyze the performance of GSL in different scenarios and develop a comprehensive Graph Structure Learning Benchmark (GSLB) curated from 20 diverse graph datasets and 16 distinct GSL algorithms. Specifically, GSLB systematically investigates the characteristics of GSL in terms of three dimensions: effectiveness, robustness, and complexity. We comprehensively evaluate state-of-the-art GSL algorithms in node- and graph-level tasks, and analyze their performance in robust learning and model complexity. Further, to facilitate reproducible research, we have developed an easy-to-use library for training, evaluating, and visualizing different GSL methods. Empirical results of our extensive experiments demonstrate the ability of GSL and reveal its potential benefits on various downstream tasks, offering insights and opportunities for future research. The code of GSLB is available at: https://github.com/GSL-Benchmark/GSLB.
翻訳日:2023-10-12 11:55:26 公開日:2023-10-08
# ロバスト類似度測定によるマルチシップトラッキング

Multi-Ship Tracking by Robust Similarity metric ( http://arxiv.org/abs/2310.05171v1 )

ライセンス: Link先を確認
Hongyu Zhao, Gongming Wei, Yang Xiao, Xianglei Xing(参考訳) コア技術としてのマルチシップトラッキング(mst)は、海上の状況認識や自律型船舶の航法システムの開発に応用できることが証明されている。 歩行者と車両のデータセットに対するマルチオブジェクトトラッキング(mot)アルゴリズムによって達成された印象的な追跡結果にもかかわらず、これらのモデルと技術は、船舶のデータセットに適用すると性能が低下する。 IoU(Intersection of Union)は、オブジェクト追跡に使用される類似性を計算するための最も一般的な指標である。 船舶データセット内の波乱による低フレームレートと重大画像揺動は、予測および検出された境界ボックス間の結合(iou)を最小またはゼロにすることが多い。 この問題は、追跡されたオブジェクトの頻繁なid切り換えに寄与し、トラッキング性能を損なう。 本稿では,予測ボックスと検出ボックスの両方を囲む最小の凸形状を組み込むことで,IoUの弱点に対処する。 IoU(TIoU)メトリックのトラッキングバージョンは、検出境界ボックスと予測ボックスとの間の重なり合う領域のサイズだけでなく、それらの形状の類似性も考慮している。 TIoUをDeepSortやByteTrackといった最先端のオブジェクトトラッキングフレームワークに統合することで、これらのフレームワークのトラッキングパフォーマンスを継続的に改善します。

Multi-ship tracking (MST) as a core technology has been proven to be applied to situational awareness at sea and the development of a navigational system for autonomous ships. Despite impressive tracking outcomes achieved by multi-object tracking (MOT) algorithms for pedestrian and vehicle datasets, these models and techniques exhibit poor performance when applied to ship datasets. Intersection of Union (IoU) is the most popular metric for computing similarity used in object tracking. The low frame rates and severe image shake caused by wave turbulence in ship datasets often result in minimal, or even zero, Intersection of Union (IoU) between the predicted and detected bounding boxes. This issue contributes to frequent identity switches of tracked objects, undermining the tracking performance. In this paper, we address the weaknesses of IoU by incorporating the smallest convex shapes that enclose both the predicted and detected bounding boxes. The calculation of the tracking version of IoU (TIoU) metric considers not only the size of the overlapping area between the detection bounding box and the prediction box, but also the similarity of their shapes. Through the integration of the TIoU into state-of-the-art object tracking frameworks, such as DeepSort and ByteTrack, we consistently achieve improvements in the tracking performance of these frameworks.
翻訳日:2023-10-12 11:55:03 公開日:2023-10-08
# DeepQTest: 強化学習と現実の気象データによる自律走行システムのテスト

DeepQTest: Testing Autonomous Driving Systems with Reinforcement Learning and Real-world Weather Data ( http://arxiv.org/abs/2310.05170v1 )

ライセンス: Link先を確認
Chengjie Lu, Tao Yue, Man Zhang, Shaukat Ali(参考訳) 自律運転システム(ADS)は環境を感知し、自律的に運転決定を行うことができる。 これらのシステムは安全性に重要であり、テストは安全性を確保するための重要なアプローチの1つである。 しかし, ADS の複雑さと動作環境の高次元性のため, ADS のテストシナリオの数は無限である。 さらに、ADSの運用環境は動的で、継続的に進化し、不確実性に満ちており、環境に適応したテストアプローチが必要である。 さらに、既存のADSテスト技術は、テストシナリオ、特に気象条件のリアリズムとその経時変化を確実にする上で、限られた効果がある。 近年、強化学習(RL)は、特に動的環境への一定の適応を必要とする問題に対処する大きな可能性を示している。 この目的のために,RL を用いて環境構成を学習し,異常な ADS の挙動を明らかにする新しい ADS テスト手法である DeepQTest を提案する。 具体的には、DeepQTestはDeep Q-Learningを採用し、報酬関数を構築するために3つの安全性と快適な対策を採用している。 生成されたシナリオの現実性を保証するため、DeepQTestは現実的な制約セットを定義し、シミュレーション環境に実際の気象条件を導入する。 産業規模広告におけるdeepqtestの評価には,ランダム,欲欲,最先端のrlベースアプローチであるdeepcollisionの3つの比較ベースラインを用いた。 評価結果から,DeepQTestは,衝突につながるシナリオの生成や,ベースラインと比較してシナリオリアリズムの確保において,極めて優れた有効性を示した。 また,DeepQTestで実装された3つの報酬関数のうち,Time-To-Collisionが最適設計として推奨されている。

Autonomous driving systems (ADSs) are capable of sensing the environment and making driving decisions autonomously. These systems are safety-critical, and testing them is one of the important approaches to ensure their safety. However, due to the inherent complexity of ADSs and the high dimensionality of their operating environment, the number of possible test scenarios for ADSs is infinite. Besides, the operating environment of ADSs is dynamic, continuously evolving, and full of uncertainties, which requires a testing approach adaptive to the environment. In addition, existing ADS testing techniques have limited effectiveness in ensuring the realism of test scenarios, especially the realism of weather conditions and their changes over time. Recently, reinforcement learning (RL) has demonstrated great potential in addressing challenging problems, especially those requiring constant adaptations to dynamic environments. To this end, we present DeepQTest, a novel ADS testing approach that uses RL to learn environment configurations with a high chance of revealing abnormal ADS behaviors. Specifically, DeepQTest employs Deep Q-Learning and adopts three safety and comfort measures to construct the reward functions. To ensure the realism of generated scenarios, DeepQTest defines a set of realistic constraints and introduces real-world weather conditions into the simulated environment. We employed three comparison baselines, i.e., random, greedy, and a state-of-the-art RL-based approach DeepCOllision, for evaluating DeepQTest on an industrial-scale ADS. Evaluation results show that DeepQTest demonstrated significantly better effectiveness in terms of generating scenarios leading to collisions and ensuring scenario realism compared with the baselines. In addition, among the three reward functions implemented in DeepQTest, Time-To-Collision is recommended as the best design according to our study.
翻訳日:2023-10-12 11:54:42 公開日:2023-10-08
# PINNによるバーガーのPDEを有限時間BlowUp付近で解く能力の検討

Investigating the Ability of PINNs To Solve Burgers' PDE Near Finite-Time BlowUp ( http://arxiv.org/abs/2310.05169v1 )

ライセンス: Link先を確認
Dibyakanti Kumar, Anirbit Mukherjee(参考訳) 物理学インフォームドニューラルネットワーク(pinns)は、複雑なpdesを数値的に解き、精度と推論速度の間の魅力的なトレードオフを提供している。 PDE の特に難しい側面は、滑らかな初期条件から始まる有限時間で特異解へと発展できる単純な PDE が存在することである。 最近では、ピンがこのような有限時間ブローアップを検知できるかもしれないという驚くべき実験がいくつかある。 本研究では,このPINNの安定性を厳密な理論的観点から調査するプログラムに着手する。 まず、バーガースの PDE に対する PINN の任意の次元での一般化境界を有限時間ブローアップ可能な条件で導出する。 そして実験によって、我々の境界は真のブローアップ溶液から得られた神経学的に見いだされたsulrogateの$\ell_2$- distanceと著しく相関していることが示され、ブローアップにますます近づいたpdesの配列で計算される。

Physics Informed Neural Networks (PINNs) have been achieving ever newer feats of solving complicated PDEs numerically while offering an attractive trade-off between accuracy and speed of inference. A particularly challenging aspect of PDEs is that there exist simple PDEs which can evolve into singular solutions in finite time starting from smooth initial conditions. In recent times some striking experiments have suggested that PINNs might be good at even detecting such finite-time blow-ups. In this work, we embark on a program to investigate this stability of PINNs from a rigorous theoretical viewpoint. Firstly, we derive generalization bounds for PINNs for Burgers' PDE, in arbitrary dimensions, under conditions that allow for a finite-time blow-up. Then we demonstrate via experiments that our bounds are significantly correlated to the $\ell_2$-distance of the neurally found surrogate from the true blow-up solution, when computed on sequences of PDEs that are getting increasingly close to a blow-up.
翻訳日:2023-10-12 11:54:13 公開日:2023-10-08
# orliczは、確率変数の一貫して拘束された統計と環境指標への応用を後悔する

Orlicz regrets to consistently bound statistics of random variables with an application to environmental indicators ( http://arxiv.org/abs/2310.05168v1 )

ライセンス: Link先を確認
Hidekazu Yoshioka, Yumi Yoshioka(参考訳) 確率的に変化する環境変数を評価することは、より良い環境管理と修復スキームを設計するための主要なトピックである。 水質指標や洪水,干ばつ水位など,これらの変数の上下両方の評価は重要であり,統一された数学的枠組みの中で一貫して評価されるべきである。 そこで本研究では,確率変数の統計を上下ともに一貫して拘束する新たなオルリックス後悔のペアを提案する。 ここでは,上限値と下限値が共通係数で評価され,パラメータ値がこれまでに提案されたリスク対策と異なることを示す。 orlicz regretsは、末尾の振る舞いに基づいて確率変数の統計を柔軟に評価することができる。 オルリッツの後悔と分岐リスク対策との明確な結びつきは、それらをよりよく理解するために利用された。 そこで我々は,オルリッツの遺言と発散リスク尺度の対応に十分な条件を求め,さらに勾配降下型数値アルゴリズムを用いて計算する。 最後に,31年間の水質データの統計的評価を,日本の河川環境における重要な環境指標として,提案手法を適用した。

Evaluating environmental variables that vary stochastically is the principal topic for designing better environmental management and restoration schemes. Both the upper and lower estimates of these variables, such as water quality indices and flood and drought water levels, are important and should be consistently evaluated within a unified mathematical framework. We propose a novel pair of Orlicz regrets to consistently bound the statistics of random variables both from below and above. Here, consistency indicates that the upper and lower bounds are evaluated with common coefficients and parameter values being different from some of the risk measures proposed thus far. Orlicz regrets can flexibly evaluate the statistics of random variables based on their tail behavior. The explicit linkage between Orlicz regrets and divergence risk measures was exploited to better comprehend them. We obtain sufficient conditions to pose the Orlicz regrets as well as divergence risk measures, and further provide gradient descent-type numerical algorithms to compute them. Finally, we apply the proposed mathematical framework to the statistical evaluation of 31-year water quality data as key environmental indicators in a Japanese river environment.
翻訳日:2023-10-12 11:53:51 公開日:2023-10-08
# ノイズ観測における改善獲得関数の補正

A Corrected Expected Improvement Acquisition Function Under Noisy Observations ( http://arxiv.org/abs/2310.05166v1 )

ライセンス: Link先を確認
Han Zhou and Xingchen Ma and Matthew B Blaschko(参考訳) 期待される改善の逐次最大化(EI)は、ベイズ最適化において、ノイズの多い観測を扱うための単純さと能力のために最も広く使われている政策の一つである。 特に、改善関数は、ノイズの多い設定において、最良の後部平均を最も多く使用します。 しかし、既存の解に付随する不確実性は、多くの分析的ei型手法では無視されることが多い: 閉形式獲得関数はノイズのない設定で導かれるが、ノイズの観測を伴う設定に適用される。 この制限に対処するために,ガウス過程(GP)モデルによって提供される共分散情報を組み込んで,その閉形式表現を補正するEIの修正を提案する。 この取得関数は古典的なノイズフリーな結果に特化しており、ベイズ最適化ソフトウェアパッケージ、チュートリアル、教科書にその公式を置き換えるべきである。 この強化された取得は、ノイズやノイズのない設定に対して優れた一般化を提供する。 本研究では,不連続観測雑音下での累積残差に対するサブ線形収束率を求める。 実験の結果,提案する獲得関数は,ブラックボックス最適化のためのベンチマーク関数やニューラルネットワークモデル圧縮のパラメータ探索において,ノイズ観測の存在下ではeiよりも優れることがわかった。

Sequential maximization of expected improvement (EI) is one of the most widely used policies in Bayesian optimization because of its simplicity and ability to handle noisy observations. In particular, the improvement function often uses the best posterior mean as the best incumbent in noisy settings. However, the uncertainty associated with the incumbent solution is often neglected in many analytic EI-type methods: a closed-form acquisition function is derived in the noise-free setting, but then applied to the setting with noisy observations. To address this limitation, we propose a modification of EI that corrects its closed-form expression by incorporating the covariance information provided by the Gaussian Process (GP) model. This acquisition function specializes to the classical noise-free result, and we argue should replace that formula in Bayesian optimization software packages, tutorials, and textbooks. This enhanced acquisition provides good generality for noisy and noiseless settings. We show that our method achieves a sublinear convergence rate on the cumulative regret bound under heteroscedastic observation noise. Our empirical results demonstrate that our proposed acquisition function can outperform EI in the presence of noisy observations on benchmark functions for black-box optimization, as well as on parameter search for neural network model compression.
翻訳日:2023-10-12 11:52:54 公開日:2023-10-08
# 機械生成テキスト検出器のゼロショット一般化について

On the Zero-Shot Generalization of Machine-Generated Text Detectors ( http://arxiv.org/abs/2310.05165v1 )

ライセンス: Link先を確認
Xiao Pu, Jingyu Zhang, Xiaochuang Han, Yulia Tsvetkov, Tianxing He(参考訳) 大規模言語モデルの急激な増殖は、人間の書き言葉と区別できないテキストを生成するのに十分な流動性を持ち、機械生成されたテキストの検出に前例のない重要性をもたらす。 この研究は重要な研究課題によって動機付けられている: 機械が生成したテキストの検出器は、新しい発電機の出力でどのように動作するのか。 まず、幅広いllmから生成データを収集し、各ジェネレータからデータに基づいてニューラルネットワーク検出器を訓練し、その性能を保留ジェネレータでテストする。 いずれの検出器も全てのジェネレータに一般化することはできないが、中規模のLCMのデータに基づいて訓練された検出器がゼロショットでより大きなバージョンに一般化できる、一貫性のある興味深いパターンを観察する。 具体的な応用として,中規模モデルからのトレーニングデータのアンサンブル上にロバスト検出器を構築できることを実証する。

The rampant proliferation of large language models, fluent enough to generate text indistinguishable from human-written language, gives unprecedented importance to the detection of machine-generated text. This work is motivated by an important research question: How will the detectors of machine-generated text perform on outputs of a new generator, that the detectors were not trained on? We begin by collecting generation data from a wide range of LLMs, and train neural detectors on data from each generator and test its performance on held-out generators. While none of the detectors can generalize to all generators, we observe a consistent and interesting pattern that the detectors trained on data from a medium-size LLM can zero-shot generalize to the larger version. As a concrete application, we demonstrate that robust detectors can be built on an ensemble of training data from medium-sized models.
翻訳日:2023-10-12 11:52:34 公開日:2023-10-08
# フォグロードバランシングのための生涯学習:トランスファーラーニングアプローチ

Lifelong Learning for Fog Load Balancing: A Transfer Learning Approach ( http://arxiv.org/abs/2310.05187v1 )

ライセンス: Link先を確認
Maad Ebrahim, Abdelhakim Senhaji Hafid, Mohamed Riduan Abid(参考訳) フォグコンピューティングは、IoT(Internet of Things)が生成するデータ処理と管理の課題に対処するための、有望なパラダイムとして登場した。 負荷分散(LB)は、システム全体のパフォーマンスを最適化するために、フォッグコンピューティング環境において重要な役割を果たす。 リソース利用の改善、レイテンシの最小化、エンドユーザのサービス品質向上には、効率的なリソース割り当てが必要です。 本研究では,IoTアプリケーションの実行遅延を最適化するプライバシ対応強化学習(RL)エージェントの性能を,待ち時間を最小限に抑えて改善する。 プライバシを維持するために、これらのエージェントはシステム全体のキューリクエスト数、すなわち各Fogノードでキューされたリクエストの実際の数やそれらのノードの計算リソース能力を明示的に監視することなく、待ち時間を最適化する。 本稿では,これらのエージェントの性能向上に加えて,動作遅延を最小限に抑えるために軽量推論モデルを用いて,環境変化が著しい場合にのみ再学習を行う,これらのエージェントの生涯学習フレームワークを提案する。 性能の向上,トレーニングコストの最小化,エージェントの変更に対応するため,Transfer Learning(TL)の適用について検討する。 TLはソースドメインから取得した知識をターゲットドメインに転送し、学習したポリシーと経験の再利用を可能にする。 TLは、実環境で微調整する前にシミュレーションでエージェントを事前訓練するためにも使用することができる。 我々の知る限り、LLをベースとしたFog LBの生涯学習にTLを用いた文献は存在せず、FogシステムにRL LBソリューションをデプロイする際の大きな障害の1つである。

Fog computing emerged as a promising paradigm to address the challenges of processing and managing data generated by the Internet of Things (IoT). Load balancing (LB) plays a crucial role in Fog computing environments to optimize the overall system performance. It requires efficient resource allocation to improve resource utilization, minimize latency, and enhance the quality of service for end-users. In this work, we improve the performance of privacy-aware Reinforcement Learning (RL) agents that optimize the execution delay of IoT applications by minimizing the waiting delay. To maintain privacy, these agents optimize the waiting delay by minimizing the change in the number of queued requests in the whole system, i.e., without explicitly observing the actual number of requests that are queued in each Fog node nor observing the compute resource capabilities of those nodes. Besides improving the performance of these agents, we propose in this paper a lifelong learning framework for these agents, where lightweight inference models are used during deployment to minimize action delay and only retrained in case of significant environmental changes. To improve the performance, minimize the training cost, and adapt the agents to those changes, we explore the application of Transfer Learning (TL). TL transfers the knowledge acquired from a source domain and applies it to a target domain, enabling the reuse of learned policies and experiences. TL can be also used to pre-train the agent in simulation before fine-tuning it in the real environment; this significantly reduces failure probability compared to learning from scratch in the real environment. To our knowledge, there are no existing efforts in the literature that use TL to address lifelong learning for RL-based Fog LB; this is one of the main obstacles in deploying RL LB solutions in Fog systems.
翻訳日:2023-10-12 11:46:07 公開日:2023-10-08
# 進化的再合成経路計画

Evolutionary Retrosynthetic Route Planning ( http://arxiv.org/abs/2310.05186v1 )

ライセンス: Link先を確認
Yan Zhang, Hao Hao, Xiao He, Shuanhu Gao, Aimin Zhou(参考訳) 分子の逆合成は化学の分野では重要かつ複雑な問題であるが、従来の手動合成法は熟練した専門家を必要とするだけでなく、時間もかかる。 ビッグデータと機械学習の開発により、人工知能(ai)ベースのレトロシンセシスが注目を集め、分子のレトロシンセシスのための貴重なツールになりつつある。 現在、モンテカルロ木探索はこの問題に対処するために使われる主流の探索フレームワークである。 それでも、検索効率は巨大な検索スペースによって損なわれている。 そこで本研究では,進化的アルゴリズム(EA)を多段階再合成の分野で初めて活用した,進化的最適化に基づく再合成経路計画手法を提案する。 提案手法では,逆合成問題を最適化問題にモデル化し,探索空間と演算子を定義する。 また,探索効率を向上させるために並列戦略を実装した。 この新しいアプローチは4つのケース製品に適用され、モンテカルロ木探索と比較される。 実験の結果、モンテカルロ木探索アルゴリズムと比較して、EAは1段階の呼び出し回数を平均53.9%削減することがわかった。 3つの解を探索するのに要する時間は平均83.9%減少し、可能な探索経路の数は5倍増加した。

Molecular retrosynthesis is a significant and complex problem in the field of chemistry, however, traditional manual synthesis methods not only need well-trained experts but also are time-consuming. With the development of big data and machine learning, artificial intelligence (AI) based retrosynthesis is attracting more attention and is becoming a valuable tool for molecular retrosynthesis. At present, Monte Carlo tree search is a mainstream search framework employed to address this problem. Nevertheless, its search efficiency is compromised by its large search space. Therefore, we propose a novel approach for retrosynthetic route planning based on evolutionary optimization, marking the first use of Evolutionary Algorithm (EA) in the field of multi-step retrosynthesis. The proposed method involves modeling the retrosynthetic problem into an optimization problem, defining the search space and operators. Additionally, to improve the search efficiency, a parallel strategy is implemented. The new approach is applied to four case products, and is compared with Monte Carlo tree search. The experimental results show that, in comparison to the Monte Carlo tree search algorithm, EA significantly reduces the number of calling single-step model by an average of 53.9%. The time required to search three solutions decreased by an average of 83.9%, and the number of feasible search routes increases by 5 times.
翻訳日:2023-10-12 11:45:37 公開日:2023-10-08
# Text2NKG:N-aryリレーショナル知識グラフ構築のための微細粒度N-aryリレーショナル抽出

Text2NKG: Fine-Grained N-ary Relation Extraction for N-ary relational Knowledge Graph Construction ( http://arxiv.org/abs/2310.05185v1 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Yuhao Yang, Tianyu Yao, Yikai Guo, Zichen Tang, Wentai Zhang, Kaiyang Wan, Shiyao Peng, Meina Song, Wei Lin(参考訳) n-ary relational knowledge graph (nkgs) は、従来のバイナリリレーショナルファクトを超えて、2つ以上のエンティティを含むn-aryリレーショナルファクトで構成される。 しかし、nkgの構築は依然として手作業に大きく依存しており、n-ary関係抽出は常に単一のスキーマと固定されたエンティティのアーリティー内にあるコースグレードレベルのままである。 このような制約に対処するため,我々は,n-aryリレーショナル知識グラフ構築のための新しい微細なn-ary関係抽出フレームワークであるText2NKGを提案する。 ヘテロオーダードマージを用いたスパンタプル分類手法を導入し,n-ary関係の細粒度抽出を行う。 さらに、Text2NKGは、ハイパーリレーショナルスキーマ、イベントベースのスキーマ、ロールベースのスキーマ、ハイパーグラフベースのスキーマの4つの典型的なNKGスキーマをサポートし、柔軟性と実用性が高い。 実験結果から,Text2NKGは,高関係スキーマのn-ary関係抽出ベンチマークにおいて,F_1$のスコアにおいて,従来の最先端モデルよりも20倍近い性能を示した。 コードとデータセットは公開されています。

Beyond traditional binary relational facts, n-ary relational knowledge graphs (NKGs) are comprised of n-ary relational facts containing more than two entities, which are closer to real-world facts with broader applications. However, the construction of NKGs still significantly relies on manual labor, and n-ary relation extraction still remains at a course-grained level, which is always in a single schema and fixed arity of entities. To address these restrictions, we propose Text2NKG, a novel fine-grained n-ary relation extraction framework for n-ary relational knowledge graph construction. We introduce a span-tuple classification approach with hetero-ordered merging to accomplish fine-grained n-ary relation extraction in different arity. Furthermore, Text2NKG supports four typical NKG schemas: hyper-relational schema, event-based schema, role-based schema, and hypergraph-based schema, with high flexibility and practicality. Experimental results demonstrate that Text2NKG outperforms the previous state-of-the-art model by nearly 20\% points in the $F_1$ scores on the fine-grained n-ary relation extraction benchmark in the hyper-relational schema. Our code and datasets are publicly available.
翻訳日:2023-10-12 11:45:17 公開日:2023-10-08
# AANet:階層的位置認識のための半ハード正のサンプルマイニングによるアグリゲーションとアライメントネットワーク

AANet: Aggregation and Alignment Network with Semi-hard Positive Sample Mining for Hierarchical Place Recognition ( http://arxiv.org/abs/2310.05184v1 )

ライセンス: Link先を確認
Feng Lu, Lijun Zhang, Shuting Dong, Baifan Chen and Chun Yuan(参考訳) 視覚位置認識(visual place recognition, vpr)は、視覚情報を用いてロボットを探索するロボット研究のホットスポットの一つである。 近年,精度と効率のトレードオフにより,階層型2段VPR法が普及している。 これらの手法は,第1段のグローバル特徴を用いてトップk候補画像を取得し,第2段のローカル特徴とマッチングして候補を再ランクする。 しかし、それらは通常、時間を要する再ランクの幾何的整合性検証のために追加のアルゴリズム(RANSACなど)を必要とする。 本稿では,局所的特徴を空間的制約下で整列する動的局所特徴量(DALF)アルゴリズムを提案する。 幾何整合性検証を必要とする方法よりもはるかに効率的である。 本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出し,DALFアライメントモジュールを介して局所的な特徴を整理するネットワークを提案する。 私たちはこのネットワークをAANetと呼ぶ。 一方、多くの研究は三重項の最も単純な正のサンプルを用いて弱教師付きトレーニングを行い、ネットワークがより強い正のペアを認識する能力を制限する。 この問題に対処するため、より堅牢なVPRネットワークをトレーニングするために、適切なハードな正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。 4つのベンチマークVPRデータセットの大規模な実験により、提案されたAANetは、より少ない時間消費で、最先端のいくつかのメソッドより優れていることが示された。 コードはhttps://github.com/Lu-Feng/AANetで公開されている。

Visual place recognition (VPR) is one of the research hotspots in robotics, which uses visual information to locate robots. Recently, the hierarchical two-stage VPR methods have become popular in this field due to the trade-off between accuracy and efficiency. These methods retrieve the top-k candidate images using the global features in the first stage, then re-rank the candidates by matching the local features in the second stage. However, they usually require additional algorithms (e.g. RANSAC) for geometric consistency verification in re-ranking, which is time-consuming. Here we propose a Dynamically Aligning Local Features (DALF) algorithm to align the local features under spatial constraints. It is significantly more efficient than the methods that need geometric consistency verification. We present a unified network capable of extracting global features for retrieving candidates via an aggregation module and aligning local features for re-ranking via the DALF alignment module. We call this network AANet. Meanwhile, many works use the simplest positive samples in triplet for weakly supervised training, which limits the ability of the network to recognize harder positive pairs. To address this issue, we propose a Semi-hard Positive Sample Mining (ShPSM) strategy to select appropriate hard positive images for training more robust VPR networks. Extensive experiments on four benchmark VPR datasets show that the proposed AANet can outperform several state-of-the-art methods with less time consumption. The code is released at https://github.com/Lu-Feng/AANet.
翻訳日:2023-10-12 11:44:52 公開日:2023-10-08
# フローマッチングを用いた統一音声とジェスチャー合成

Unified speech and gesture synthesis using flow matching ( http://arxiv.org/abs/2310.05181v1 )

ライセンス: Link先を確認
Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) テキスト対音声技術が読解課題において顕著な自然性を達成するにつれて、自然発話や身体のジェスチャーといった言語的および非言語的コミュニケーション行動のマルチモーダル合成への関心が高まっている。 本稿では,音声音響とスケルトンに基づく3次元ジェスチャーをテキストから統合的に合成する新しいアーキテクチャを提案する。 提案されたアーキテクチャは、以前の技術よりもシンプルで、メモリフットプリントが小さく、音声とジェスチャーのジョイント分布をキャプチャし、1つのプロセスで両方のモダリティを生成することができる。 新たなトレーニング体制は、これまでよりもはるかに少ないステップ(ネットワーク評価)で、より良い合成品質を実現する。 単モードと多モードの主観テストでは、既存のベンチマークと比較して、音声の自然性、ジェスチャーの人間的類似性、クロスモーダル適合性が改善された。

As text-to-speech technologies achieve remarkable naturalness in read-aloud tasks, there is growing interest in multimodal synthesis of verbal and non-verbal communicative behaviour, such as spontaneous speech and associated body gestures. This paper presents a novel, unified architecture for jointly synthesising speech acoustics and skeleton-based 3D gesture motion from text, trained using optimal-transport conditional flow matching (OT-CFM). The proposed architecture is simpler than the previous state of the art, has a smaller memory footprint, and can capture the joint distribution of speech and gestures, generating both modalities together in one single process. The new training regime, meanwhile, enables better synthesis quality in much fewer steps (network evaluations) than before. Uni- and multimodal subjective tests demonstrate improved speech naturalness, gesture human-likeness, and cross-modal appropriateness compared to existing benchmarks.
翻訳日:2023-10-12 11:44:26 公開日:2023-10-08
# オンラインリスク認識適応による分布強化学習

Distributional Reinforcement Learning with Online Risk-awareness Adaption ( http://arxiv.org/abs/2310.05179v1 )

ライセンス: Link先を確認
Yupeng Wu, Wenjie Huang(参考訳) 実践的応用における強化学習 (RL) の利用には, エージェントが不確実な環境に慣れていることに依存する, 準最適結果を検討する必要がある。 学習の過程で認識リスクのレベルを動的に調整することで、安全クリティカルな環境で戦術的に信頼できる最適ポリシーを達成し、静的リスクレベルの下位最適化に取り組むことができる。 本研究では,オンラインリスク適応型分散rl(drl-ora)という新しい枠組みを導入し,全変動最小化問題をオンライン上で解き明かして認識リスクレベルを動的に決定する手法を提案する。 リスクレベル選択は、フォロー・ザ・リーダー型アルゴリズムを用いたグリッド検索によって効率的に実現でき、そのオフラインオラクルは、損失関数の特別な修正の下で、"満足度尺度"(決定分析コミュニティ内)に関連している。 DRL-ORAは、固定リスクレベルまたは手動で所定のリスクレベル適応に依存する既存の手法よりも優れたタスクのクラスを示す。 修正の単純さを考えると、このフレームワークはほとんどのRLアルゴリズムの変種に簡単に組み込めると信じている。

The use of reinforcement learning (RL) in practical applications requires considering sub-optimal outcomes, which depend on the agent's familiarity with the uncertain environment. Dynamically adjusting the level of epistemic risk over the course of learning can tactically achieve reliable optimal policy in safety-critical environments and tackle the sub-optimality of a static risk level. In this work, we introduce a novel framework, Distributional RL with Online Risk Adaption (DRL-ORA), which can quantify the aleatory and epistemic uncertainties compositely and dynamically select the epistemic risk levels via solving a total variation minimization problem online. The risk level selection can be efficiently achieved through grid search using a Follow-The-Leader type algorithm, and its offline oracle is related to "satisficing measure" (in the decision analysis community) under a special modification of the loss function. We show multiple classes of tasks where DRL-ORA outperforms existing methods that rely on either a fixed risk level or manually predetermined risk level adaption. Given the simplicity of our modifications, we believe the framework can be easily incorporated into most RL algorithm variants.
翻訳日:2023-10-12 11:44:09 公開日:2023-10-08
# スマートコントラクト開発を促進するための大規模言語モデルの最適化

Optimizing Large Language Models to Expedite the Development of Smart Contracts ( http://arxiv.org/abs/2310.05178v1 )

ライセンス: Link先を確認
Nii Osae Osae Dade, Margaret Lartey-Quaye, Emmanuel Teye-Kofi Odonkor, Paul Ammah(参考訳) プログラミングは常に21世紀における技術革新の中心であった。 ブロックチェーン技術の出現と、分散化されたアプリケーションのWeb3パラダイムの普及により、スマートコントラクトは、開発者が分散化されたブロックチェーンに存在するアプリケーションを構築する上で非常に役立ちました。 スマートコントラクトに対する大きな関心と可能性にもかかわらず、Web3アプリケーションを構築するために開発者が横断する必要がある知識とスキルのギャップは依然として大きい。 これを踏まえて,私たちは,スマートコントラクトコードの生成と開発者の足場構築と生産性向上を支援するように最適化された,大規模な言語モデルであるmazzumagptを紹介します。 本研究の一環として,最適化と微調整パラメータを概説し,モデルの性能評価を行い,本研究の限界と幅広い影響について考察する。

Programming has always been at the heart of technological innovation in the 21st century. With the advent of blockchain technologies and the proliferation of web3 paradigms of decentralised applications, smart contracts have been very instrumental in enabling developers to build applications that reside on decentralised blockchains. Despite the huge interest and potential of smart contracts, there is still a significant knowledge and skill gap that developers need to cross in order to build web3 applications. In light of this, we introduce MazzumaGPT, a large language model that has been optimised to generate smart contract code and aid developers to scaffold development and improve productivity. As part of this research, we outline the optimisation and fine-tuning parameters, evaluate the model's performance on functional correctness and address the limitations and broader impacts of our research.
翻訳日:2023-10-12 11:43:47 公開日:2023-10-08
# 大きな言語モデルは事実を知っているか?

Do Large Language Models Know about Facts? ( http://arxiv.org/abs/2310.05177v1 )

ライセンス: Link先を確認
Xuming Hu, Junzhe Chen, Xiaochuan Li, Yufei Guo, Lijie Wen, Philip S. Yu, Zhijiang Guo(参考訳) 大規模言語モデル(llms)は最近、さまざまな自然言語処理タスクにおける大幅なパフォーマンス向上を促している。 事前学習と指導訓練の間に得られた事実知識は、質問応答や言語生成など、様々な下流タスクに有用である。 事実知識を明示的に記憶する従来の知識ベース(KB)とは異なり、LLMは事実をパラメータに暗黙的に記憶する。 LLMが生成したコンテンツは、誤って引き起こされたり、時間の経過とともに時代遅れになったりする事実のために、真実からの不正確さや逸脱を示すことが多い。 そこで本研究では,Pinocchioベンチマークを設計し,LLM内の事実知識の範囲と範囲を総合的に評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。 さらに,LLMが複数の事実を構成可能か,事実知識を時間的に更新可能か,複数の事実を推論可能か,微妙な事実差を識別可能か,敵の例に抵抗可能かを検討した。 異なるサイズと種類のLLMに関する大規模な実験は、既存のLLMにはまだ事実の知識がなく、様々な刺激的な相関に悩まされていることを示している。 これは、信頼できる人工知能を実現する上で重要なボトルネックであると考えています。 データセットpinocchioと私たちのコードは公開される予定だ。

Large language models (LLMs) have recently driven striking performance improvements across a range of natural language processing tasks. The factual knowledge acquired during pretraining and instruction tuning can be useful in various downstream tasks, such as question answering, and language generation. Unlike conventional Knowledge Bases (KBs) that explicitly store factual knowledge, LLMs implicitly store facts in their parameters. Content generated by the LLMs can often exhibit inaccuracies or deviations from the truth, due to facts that can be incorrectly induced or become obsolete over time. To this end, we aim to comprehensively evaluate the extent and scope of factual knowledge within LLMs by designing the benchmark Pinocchio. Pinocchio contains 20K diverse factual questions that span different sources, timelines, domains, regions, and languages. Furthermore, we investigate whether LLMs are able to compose multiple facts, update factual knowledge temporally, reason over multiple pieces of facts, identify subtle factual differences, and resist adversarial examples. Extensive experiments on different sizes and types of LLMs show that existing LLMs still lack factual knowledge and suffer from various spurious correlations. We believe this is a critical bottleneck for realizing trustworthy artificial intelligence. The dataset Pinocchio and our codes will be publicly available.
翻訳日:2023-10-12 11:43:34 公開日:2023-10-08
# GEAR:大規模強化学習モデルのためのGPU中心体験再生システム

GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models ( http://arxiv.org/abs/2310.05205v1 )

ライセンス: Link先を確認
Hanjing Wang, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun Wang, Yaodong Yang, Luo Mai(参考訳) 本稿では,大規模シーケンスモデル(トランスフォーマーなど)を用いた拡張強化学習(RL)を実現するために設計された,分散GPU中心のエクスペリエンス再生システムGEARを紹介する。 このようなモデルでは、Reverbのような既存のシステムは、メモリ、計算、通信においてかなりのボトルネックに直面している。 しかしGEARは、GPUサーバ上のメモリリソース(ホストメモリやデバイスメモリを含む)がトラジェクトリデータを管理することにより、メモリ効率を最適化する。 さらに、分散gpuデバイスは、計算ボトルネックを回避し、様々な軌道選択戦略を迅速化する。 GEARは、ホストメモリへのゼロコピーアクセスを使用してトラジェクトリを収集できるGPUカーネルと、InfiniBand上のリモート指向メモリアクセスを備え、通信効率が向上している。 クラスタ実験により、GEARは最先端の大規模RLモデルをトレーニングする際に、Reverbの最大6倍のパフォーマンスレベルを達成することができることが示された。 gearはhttps://github.com/bigrl-team/gearでオープンソースである。

This paper introduces a distributed, GPU-centric experience replay system, GEAR, designed to perform scalable reinforcement learning (RL) with large sequence models (such as transformers). With such models, existing systems such as Reverb face considerable bottlenecks in memory, computation, and communication. GEAR, however, optimizes memory efficiency by enabling the memory resources on GPU servers (including host memory and device memory) to manage trajectory data. Furthermore, it facilitates decentralized GPU devices to expedite various trajectory selection strategies, circumventing computational bottlenecks. GEAR is equipped with GPU kernels capable of collecting trajectories using zero-copy access to host memory, along with remote-directed-memory access over InfiniBand, improving communication efficiency. Cluster experiments have shown that GEAR can achieve performance levels up to 6x greater than Reverb when training state-of-the-art large RL models. GEAR is open-sourced at https://github.com/bigrl-team/gear.
翻訳日:2023-10-12 11:36:15 公開日:2023-10-08
# 大規模言語モデルによる最適化に向けて

Towards Optimizing with Large Language Models ( http://arxiv.org/abs/2310.05204v1 )

ライセンス: Link先を確認
Pei-Fu Guo, Ying-Hsuan Chen, Yun-Da Tsai, Shou-De Lin(参考訳) 本研究では,様々なタスクやデータサイズにまたがるLLMの最適化能力の評価を行う。 これらのタスクはそれぞれ独自の最適化ドメインに対応しており、対話的なプロンプトでこれらのタスクを実行するにはLSMが必要である。 すなわち、各最適化ステップにおいて、LLMは過去の生成した解からそれらの値で新しい解を生成し、次に次の最適化ステップで新しい解を評価し検討する。 さらに,様々な視点からタスクパフォーマンスを総合的に評価するための3つの異なる指標を紹介した。 これらのメトリクスは、幅広い最適化タスクにわたるLLMパフォーマンスの評価に適用できる利点を提供し、テストサンプルのバリエーションに敏感でない。 これらのメトリクスを適用することで、小規模サンプルを扱う際にllmが強力な最適化能力を示すことが分かる。 しかし、それらの性能はデータサイズや値などの要因に大きく影響され、LLMの最適化タスクの領域におけるさらなる研究の重要性が強調されている。

In this work, we conduct an assessment of the optimization capabilities of LLMs across various tasks and data sizes. Each of these tasks corresponds to unique optimization domains, and LLMs are required to execute these tasks with interactive prompting. That is, in each optimization step, the LLM generates new solutions from the past generated solutions with their values, and then the new solutions are evaluated and considered in the next optimization step. Additionally, we introduce three distinct metrics for a comprehensive assessment of task performance from various perspectives. These metrics offer the advantage of being applicable for evaluating LLM performance across a broad spectrum of optimization tasks and are less sensitive to variations in test samples. By applying these metrics, we observe that LLMs exhibit strong optimization capabilities when dealing with small-sized samples. However, their performance is significantly influenced by factors like data size and values, underscoring the importance of further research in the domain of optimization tasks for LLMs.
翻訳日:2023-10-12 11:35:59 公開日:2023-10-08
# 大規模音声・歌唱データを用いた声質変換モデルの比較研究--歌声変換チャレンジ2023のためのt13システム

A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023 ( http://arxiv.org/abs/2310.05203v1 )

ライセンス: Link先を確認
Ryuichi Yamamoto, Reo Yoneyama, Lester Phillip Violeta, Wen-Chin Huang, Tomoki Toda(参考訳) 本稿では,歌唱音声変換チャレンジ(SVCC)2023のためのシステム(T13)について述べる。 ドメイン内およびクロスドメインの英語歌唱音声変換(svc)タスク(タスク1とタスク2)に対して,自己教師付き学習に基づく認識合成アプローチを採用する。 SVCC 2023に対して150~160発の発話を対象とするデータ効率の高いSVCを実現するために,まず,750時間に及ぶ大規模音声・歌唱データを用いて拡散型音声変換モデルを訓練する。 そして、タスク1とタスク2の各ターゲットシンガー/スピーカーのモデルを微調整する。 SVCC 2023 による大規模リスニング試験の結果,提案手法の一般化能力を示す,より難しいクロスドメイン SVC (Task 2) に対して,我々のT13 システムは競合自然性および話者類似性を達成していることがわかった。 評価結果から,大規模データセットの利用はクロスドメインSVCに特に有用であることが示唆された。

This paper presents our systems (denoted as T13) for the singing voice conversion challenge (SVCC) 2023. For both in-domain and cross-domain English singing voice conversion (SVC) tasks (Task 1 and Task 2), we adopt a recognition-synthesis approach with self-supervised learning-based representation. To achieve data-efficient SVC with a limited amount of target singer/speaker's data (150 to 160 utterances for SVCC 2023), we first train a diffusion-based any-to-any voice conversion model using publicly available large-scale 750 hours of speech and singing data. Then, we finetune the model for each target singer/speaker of Task 1 and Task 2. Large-scale listening tests conducted by SVCC 2023 show that our T13 system achieves competitive naturalness and speaker similarity for the harder cross-domain SVC (Task 2), which implies the generalization ability of our proposed method. Our objective evaluation results show that using large datasets is particularly beneficial for cross-domain SVC.
翻訳日:2023-10-12 11:35:44 公開日:2023-10-08
# ゆるい唇シンク船:人間フィードバックからの強化学習における長さバイアスの軽減

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2310.05199v1 )

ライセンス: Link先を確認
Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 人間のフィードバックからの強化学習は重要な橋渡しとなり、大きな言語モデルと人間と社会の価値観を結びつける。 このアライメントには、報酬モデルを学ぶために膨大な人間のフィードバックが必要であり、その後言語モデルの微調整に使用される。 しかし、報酬モデルが意図した目的を回避できるショートカットを見つけることがしばしばあり、人間がより長い反応を好むと誤解を招く。 長さバイアスの出現は、しばしばより長い出力を好むようモデルに誘導するが、これらの出力内で有用な情報の増加には相当しない。 本稿では,報酬モデルとシーケンス長の影響を分離するためにProduct-of-Experts(PoE)技術を適用した革新的なソリューションを提案する。 我々のフレームワークでは、主要な専門家は人間の意図を理解することに集中し、偏りのある専門家は長さバイアスの識別と捕捉を目標としています。 偏見の学習をさらに促進するために,偏見に着目した専門家に摂動を導入し,意味情報の流路を乱す。 提案手法の有効性を実験的に検証し,シーケンス長に関わらず,言語モデルの性能が向上したことを示す。

Reinforcement learning from human feedback serves as a crucial bridge, aligning large language models with human and societal values. This alignment requires a vast corpus of human feedback to learn a reward model, which is subsequently used to finetune language models. However, we have identified that the reward model often finds shortcuts to bypass its intended objectives, misleadingly assuming that humans prefer longer responses. The emergence of length bias often induces the model to favor longer outputs, yet it doesn't equate to an increase in helpful information within these outputs. In this paper, we propose an innovative solution, applying the Product-of-Experts (PoE) technique to separate reward modeling from the influence of sequence length. In our framework, the main expert concentrates on understanding human intents, while the biased expert targets the identification and capture of length bias. To further enhance the learning of bias, we introduce perturbations into the bias-focused expert, disrupting the flow of semantic information. Experimental results validate the effectiveness of our approach, indicating that language model performance is improved, irrespective of sequence length.
翻訳日:2023-10-12 11:34:38 公開日:2023-10-08
# GMMFormer:高効率部分関連ビデオ検索のためのガウスミクチャーモデル変換器

GMMFormer: Gaussian-Mixture-Model based Transformer for Efficient Partially Relevant Video Retrieval ( http://arxiv.org/abs/2310.05195v1 )

ライセンス: Link先を確認
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shu-Tao Xia(参考訳) テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)は、データベース内の関連する瞬間を含む未トリミングビデオを見つけようとする。 PRVRにとって、クリップモデリングはテキストとビデオの間の部分的関係をキャプチャするために不可欠である。 現在のPRVR法では, 情報冗長で大きなストレージオーバーヘッドを必要とする明示的なクリップモデリングを実現するために, スキャニングベースのクリップ構造を採用している。 本稿では,クリップ表現を暗黙的にモデル化する Trans\textbf{M}odel based Trans\textbf{M}odel を用いた GMMFormer を提案する。 フレーム間相互作用において、ビデオ全体ではなく、隣接するフレームに各フレームを集中させるためにガウス・ミクチャー・モデル制約を組み込む。 生成された表現にはマルチスケールのクリップ情報が含まれ、暗黙のクリップモデリングを実現します。 さらに、PRVRメソッドは、同じビデオに関連するテキストクエリ間の意味的差異を無視する。 我々は,これらのテキストクエリを識別するために,クエリの多彩な損失を提案し,埋め込み空間をより集中的にし,セマンティックな情報を含むようにした。 3つの大規模ビデオデータセット(\ie, TVR, ActivityNet Captions, Charades-STA)の大規模な実験は、GMMFormerの優位性と効率性を実証している。

Given a text query, partially relevant video retrieval (PRVR) seeks to find untrimmed videos containing pertinent moments in a database. For PRVR, clip modeling is essential to capture the partial relationship between texts and videos. Current PRVR methods adopt scanning-based clip construction to achieve explicit clip modeling, which is information-redundant and requires a large storage overhead. To solve the efficiency problem of PRVR methods, this paper proposes GMMFormer, a \textbf{G}aussian-\textbf{M}ixture-\textbf{M}odel based Trans\textbf{former} which models clip representations implicitly. During frame interactions, we incorporate Gaussian-Mixture-Model constraints to focus each frame on its adjacent frames instead of the whole video. Then generated representations will contain multi-scale clip information, achieving implicit clip modeling. In addition, PRVR methods ignore semantic differences between text queries relevant to the same video, leading to a sparse embedding space. We propose a query diverse loss to distinguish these text queries, making the embedding space more intensive and contain more semantic information. Extensive experiments on three large-scale video datasets (\ie, TVR, ActivityNet Captions, and Charades-STA) demonstrate the superiority and efficiency of GMMFormer.
翻訳日:2023-10-12 11:34:17 公開日:2023-10-08
# 大規模事前学習モデルによる識別型マルチモーダル学習の改善

Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models ( http://arxiv.org/abs/2310.05193v1 )

ライセンス: Link先を確認
Chenzhuang Du, Yue Zhao, Chonghua Liao, Jiacheng You, Jie Fu, Hang Zhao(参考訳) 本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習をさらに強化する方法を検討する。 ユニモーダルデータのみを微調整しても、これらのモデルは特定のタスクにおいて従来のマルチモーダルモデルより優れている。 マルチモーダル学習への導入がパフォーマンスを大幅に改善することは明らかです。 しかし、これらのモデルを用いたマルチモーダル学習は、結果として生じるマルチモーダルモデルの一般化能力を弱めるユニモーダル特徴の学習不足に苦しむ。 微調整されたユニモーダルモデルを別々に、そしてそれらの予測を集約することは簡単であるが、モダリティ間の適切な適応が許されず、また準最適結果をもたらす。 この目的のために,Multi-Modal Low-Rank Adaptation Learning (MMLoRA)を導入する。 ユニモーダル微調整モデルの重みを凍結し、追加の訓練可能な階数分解行列を付加し、さらにマルチモーダルジョイントトレーニングを行うことにより、モダリティ間の適応性を高め、全体的なパフォーマンスを向上させる。 3つのデータセット(例えば、ave, kinetics-sound, crema-d)、視覚言語(例えば、mm-imdb, upmc food101)、rgb-optical flow(ucf101)におけるmmloraの有効性を実証した。

This paper investigates how to better leverage large-scale pre-trained uni-modal models to further enhance discriminative multi-modal learning. Even when fine-tuned with only uni-modal data, these models can outperform previous multi-modal models in certain tasks. It's clear that their incorporation into multi-modal learning would significantly improve performance. However, multi-modal learning with these models still suffers from insufficient learning of uni-modal features, which weakens the resulting multi-modal model's generalization ability. While fine-tuning uni-modal models separately and then aggregating their predictions is straightforward, it doesn't allow for adequate adaptation between modalities, also leading to sub-optimal results. To this end, we introduce Multi-Modal Low-Rank Adaptation learning (MMLoRA). By freezing the weights of uni-modal fine-tuned models, adding extra trainable rank decomposition matrices to them, and subsequently performing multi-modal joint training, our method enhances adaptation between modalities and boosts overall performance. We demonstrate the effectiveness of MMLoRA on three dataset categories: audio-visual (e.g., AVE, Kinetics-Sound, CREMA-D), vision-language (e.g., MM-IMDB, UPMC Food101), and RGB-Optical Flow (UCF101).
翻訳日:2023-10-12 11:33:50 公開日:2023-10-08
# HOD: 有害なオブジェクト検出のためのベンチマークデータセット

HOD: A Benchmark Dataset for Harmful Object Detection ( http://arxiv.org/abs/2310.05192v1 )

ライセンス: Link先を確認
Eungyeom Ha, Heemook Kim, Sung Chul Hong, Dongbin Na(参考訳) 近年,画像や動画などのマルチメディアデータがソーシャルネットワークサービス(SNS)など様々なオンラインサービスに急速に普及している。 オンラインメディアサービスの爆発的な成長に伴い、ユーザーを害する画像コンテンツも指数関数的に増えている。 したがって、FacebookやInstagramのような最近のオンラインプラットフォームでは、有害なコンテンツの頻度を防ぎ、ユーザに対する有害な影響のリスクを低減するために、コンテンツフィルタリングシステムを採用している。 残念ながら、有害なコンテンツを検出するコンピュータビジョンの研究はまだ注目されていない。 各プラットフォームのユーザは、レポートボタンを手動でクリックして、有害なコンテンツに晒されたときに嫌いなコンテンツパターンを認識する。 しかし、手動レポートの問題は、ユーザーがすでに有害なコンテンツに晒されていることだ。 これらの課題に対処するため,オンラインサービスにおける有害物自動検出システムの開発が本研究の目的である。 有害物体検出のための新しいベンチマークデータセットを提案する。 オブジェクトカテゴリの小さなサブセットに焦点を当てたほとんどの関連する研究とは異なり、データセットはさまざまなカテゴリに対処する。 具体的には、6つのカテゴリにまたがる1万以上の画像が含まれており、通常のケースだけでなく、検出が難しいケースも含んでいる。 さらに,提案したデータセットの有効性を評価するため,広範な実験を行った。 我々は,最近提案されたsota(state-of-the-art)オブジェクト検出アーキテクチャを活用し,提案するデータセットをリアルタイム有害オブジェクト検出タスクに活用できることを実証した。 ソースコードとデータセットはhttps://github.com/poori-nuna/hod-benchmark-datasetで公開されている。

Recent multi-media data such as images and videos have been rapidly spread out on various online services such as social network services (SNS). With the explosive growth of online media services, the number of image content that may harm users is also growing exponentially. Thus, most recent online platforms such as Facebook and Instagram have adopted content filtering systems to prevent the prevalence of harmful content and reduce the possible risk of adverse effects on users. Unfortunately, computer vision research on detecting harmful content has not yet attracted attention enough. Users of each platform still manually click the report button to recognize patterns of harmful content they dislike when exposed to harmful content. However, the problem with manual reporting is that users are already exposed to harmful content. To address these issues, our research goal in this work is to develop automatic harmful object detection systems for online services. We present a new benchmark dataset for harmful object detection. Unlike most related studies focusing on a small subset of object categories, our dataset addresses various categories. Specifically, our proposed dataset contains more than 10,000 images across 6 categories that might be harmful, consisting of not only normal cases but also hard cases that are difficult to detect. Moreover, we have conducted extensive experiments to evaluate the effectiveness of our proposed dataset. We have utilized the recently proposed state-of-the-art (SOTA) object detection architectures and demonstrated our proposed dataset can be greatly useful for the real-time harmful object detection task. The whole source codes and datasets are publicly accessible at https://github.com/poori-nuna/HOD-Benchmark-Dataset.
翻訳日:2023-10-12 11:33:27 公開日:2023-10-08
# FABRIC:エッセイのための自動スコーリングとフィードバック生成

FABRIC: Automated Scoring and Feedback Generation for Essays ( http://arxiv.org/abs/2310.05191v1 )

ライセンス: Link先を確認
Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Hyunseung Lim, Yoonsu Kim, Tak Yeon Lee, Hwajung Hong, Juho Kim, So-Yeon Ahn, Alice Oh(参考訳) 自動エッセイスコア(AES)は,エッセイスコアをリアルタイムで生成することにより,授業の執筆において学生やインストラクターに有用なツールを提供する。 しかし、以前のaesモデルは、より具体的なルーブリックに基づくスコアや、エッセイを改善するためのフィードバックを提供していない。 FABRICは、英語の授業で生徒やインストラクターが自動生成するのを助けるパイプラインである。 1) 総合得点。 2 特定のルーリックに基づくスコア及び 3)エッセイの改善方法についての詳細なフィードバック。 英語教育の専門家の指導のもと、私たちは内容、組織、言語として特定のスコアのルーブリックを選択しました。 FABRICパイプラインの最初のコンポーネントは、Real-world Dataset for RubricベースのEssay Scoring (DREsS)である。 第2の要素は、エッセイの腐敗に基づく拡張戦略であるcaseであり、ベースラインモデルの精度を45.44%向上させることができる。 第3のコンポーネントであるEssayCoTは、AESモデルから予測されたスコアを使用して、より良いフィードバックを生成するEssay Chain-of-Thoughtプロンプト戦略である。 我々は,新しいデータセットドレスの有効性と拡張戦略ケースを定量的に評価し,既存のデータセットでトレーニングしたモデルに対して有意な改善を示す。 本研究では,EssayCoTが英語教育の専門家と行ったフィードバックを評価し,すべてのルーリックにまたがるフィードバックの有用性を大幅に改善したことを示す。 最後に, FABRICパイプラインを, 大学英語授業の学生を対象に評価し, 平均6点のスコアとフィードバックを1対7の尺度で評価した。

Automated essay scoring (AES) provides a useful tool for students and instructors in writing classes by generating essay scores in real-time. However, previous AES models do not provide more specific rubric-based scores nor feedback on how to improve the essays, which can be even more important than the overall scores for learning. We present FABRIC, a pipeline to help students and instructors in English writing classes by automatically generating 1) the overall scores, 2) specific rubric-based scores, and 3) detailed feedback on how to improve the essays. Under the guidance of English education experts, we chose the rubrics for the specific scores as content, organization, and language. The first component of the FABRIC pipeline is DREsS, a real-world Dataset for Rubric-based Essay Scoring (DREsS). The second component is CASE, a Corruption-based Augmentation Strategy for Essays, with which we can improve the accuracy of the baseline model by 45.44%. The third component is EssayCoT, the Essay Chain-of-Thought prompting strategy which uses scores predicted from the AES model to generate better feedback. We evaluate the effectiveness of the new dataset DREsS and the augmentation strategy CASE quantitatively and show significant improvements over the models trained with existing datasets. We evaluate the feedback generated by EssayCoT with English education experts to show significant improvements in the helpfulness of the feedback across all rubrics. Lastly, we evaluate the FABRIC pipeline with students in a college English writing class who rated the generated scores and feedback with an average of 6 on the Likert scale from 1 to 7.
翻訳日:2023-10-12 11:33:05 公開日:2023-10-08
# RoPEを用いた外挿法のスケーリング法則

Scaling Laws of RoPE-based Extrapolation ( http://arxiv.org/abs/2310.05209v1 )

ライセンス: Link先を確認
Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, Dahua Lin(参考訳) ロータリー位置埋め込みに基づくLLM(Large Language Models)の補間機能は、現在かなりの関心を集めているトピックである。 LLMによる外挿に対処する主流のアプローチは、オリジナルの RoPE において $\theta_n={10000}^{-2n/d} の回転ベースである 10000 を置き換えることで RoPE を変更することであり、より大きな値とより長い微調整テキストを提供する。 本研究では,RoPEをベースとしたLLMをトレーニング前のコンテキスト長の小さいあるいは大きいベースで微調整することで,外挿性能が著しく向上することを示した。 その後、周期的な視点から、外挿性能とベース値の関係を記述し、文脈長のチューニングを行うための統一的なフレームワークである、RoPEベースの外挿法則である「textbf{\textit{Scaling Laws of RoPE」を提案する。 この過程では、外挿法における RoPE に基づく外挿問題の起源を \textbf{\textit{ critical dimension for extrapolation}} で説明する。 これらの観察と分析に加えて,LLaMA2 7Bと13Bの16Kトレーニング長で最大100万の文脈長の補間を行う。

The extrapolation capability of Large Language Models (LLMs) based on Rotary Position Embedding is currently a topic of considerable interest. The mainstream approach to addressing extrapolation with LLMs involves modifying RoPE by replacing 10000, the rotary base of $\theta_n={10000}^{-2n/d}$ in the original RoPE, with a larger value and providing longer fine-tuning text. In this work, we first observe that fine-tuning a RoPE-based LLM with either a smaller or larger base in pre-training context length could significantly enhance its extrapolation performance. After that, we propose \textbf{\textit{Scaling Laws of RoPE-based Extrapolation}}, a unified framework from the periodic perspective, to describe the relationship between the extrapolation performance and base value as well as tuning context length. In this process, we also explain the origin of the RoPE-based extrapolation issue by \textbf{\textit{critical dimension for extrapolation}}. Besides these observations and analyses, we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B.
翻訳日:2023-10-12 11:24:31 公開日:2023-10-08
# 行動優先パートナーによるゼロショットコーディネート能力の定量化

Quantifying Zero-shot Coordination Capability with Behavior Preferring Partners ( http://arxiv.org/abs/2310.05208v1 )

ライセンス: Link先を確認
Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen, Weinan Zhang(参考訳) ゼロショットコーディネーション(ZSC)は、学習したコーディネーションスキルを未確認のパートナーに一般化することに焦点を当てた新しい課題である。 既存の方法は、事前に訓練されたまたは進化した集団からパートナーとエゴエージェントを訓練する。 エージェントのZSC能力は通常、人間やエージェントを含むいくつかの評価パートナーで評価され、平均的なリターンによって報告される。 現在のZSC能力評価手法は, 多様な評価パートナーの構築や, ZSC能力の包括的評価において改善が必要である。 我々は,zsc能力の信頼性,包括的,効率的な評価手法の構築を目指している。 我々は, 理想的な「多様性完全」評価パートナーを定式化し, 最適評価パートナーを近似するために, brsの個体群多様性である最良応答(br)多様性を提案する。 本稿では,「多様性完備」評価パートナーの構築と多次元計量,BR-Prox(Best Response Proximity)メトリックを含む評価ワークフローを提案する。 BR-Proxは、各評価パートナーの近似ベストレスポンスに類似した性能としてZSC機能を定量化し、一般化能力と改善可能性を示す。 提案する評価ワークフローを用いて,過剰調理環境における強zsc法の再評価を行った。 驚いたことに、最もよく使われるレイアウトのいくつかは、異なるZSCメソッドのパフォーマンスを区別することができない。 さらに、評価されたZSC手法は、より多種多様で高性能なトレーニングパートナーを生成する必要がある。 提案する評価ワークフローでは,ZSC法を人的評価の補助として効率的に評価する方法が求められている。

Zero-shot coordination (ZSC) is a new challenge focusing on generalizing learned coordination skills to unseen partners. Existing methods train the ego agent with partners from pre-trained or evolving populations. The agent's ZSC capability is typically evaluated with a few evaluation partners, including human and agent, and reported by mean returns. Current evaluation methods for ZSC capability still need to improve in constructing diverse evaluation partners and comprehensively measuring the ZSC capability. We aim to create a reliable, comprehensive, and efficient evaluation method for ZSC capability. We formally define the ideal 'diversity-complete' evaluation partners and propose the best response (BR) diversity, which is the population diversity of the BRs to the partners, to approximate the ideal evaluation partners. We propose an evaluation workflow including 'diversity-complete' evaluation partners construction and a multi-dimensional metric, the Best Response Proximity (BR-Prox) metric. BR-Prox quantifies the ZSC capability as the performance similarity to each evaluation partner's approximate best response, demonstrating generalization capability and improvement potential. We re-evaluate strong ZSC methods in the Overcooked environment using the proposed evaluation workflow. Surprisingly, the results in some of the most used layouts fail to distinguish the performance of different ZSC methods. Moreover, the evaluated ZSC methods must produce more diverse and high-performing training partners. Our proposed evaluation workflow calls for a change in how we efficiently evaluate ZSC methods as a supplement to human evaluation.
翻訳日:2023-10-12 11:24:10 公開日:2023-10-08
# 顔のランドマーク検出とドメイン分離・再構築の協調学習による顔行動単位検出の促進

Boosting Facial Action Unit Detection Through Jointly Learning Facial Landmark Detection and Domain Separation and Reconstruction ( http://arxiv.org/abs/2310.05207v1 )

ライセンス: Link先を確認
Ziqiao Shang, Li Yu(参考訳) 近年,非ラベル顔画像の多数を監督的顔行動単位(AU)検出フレームワークに導入する方法が課題となっている。 本稿では,AUドメインの分離と再構築,および顔のランドマーク検出をホモ構造的顔抽出モジュールのパラメータを共有することで共同で学習するマルチタスク学習を実現する新しいAU検出フレームワークを提案する。 さらに,単純なプロジェクタによるコントラスト学習に基づく新たな特徴アライメントスキームと,コントラスト損失の改善を提案する。 2つのベンチマークによる実験結果は、野生でのAU検出の最先端手法に対する我々の優位性を示している。

Recently how to introduce large amounts of unlabeled facial images in the wild into supervised Facial Action Unit (AU) detection frameworks has become a challenging problem. In this paper, we propose a new AU detection framework where multi-task learning is introduced to jointly learn AU domain separation and reconstruction and facial landmark detection by sharing the parameters of homostructural facial extraction modules. In addition, we propose a new feature alignment scheme based on contrastive learning by simple projectors and an improved contrastive loss, which adds four additional intermediate supervisors to promote the feature reconstruction process. Experimental results on two benchmarks demonstrate our superiority against the state-of-the-art methods for AU detection in the wild.
翻訳日:2023-10-12 11:23:46 公開日:2023-10-08
# 認識を表現した解釈可能なセミオティックスネットワーク

Interpretable Semiotics Networks Representing Awareness ( http://arxiv.org/abs/2310.05212v1 )

ライセンス: Link先を確認
David Kupeev and Eyal Nitcany(参考訳) 人間は物体を毎日知覚し、様々なチャンネルを使って知覚を伝える。 本稿では,物体の知覚とその表現を追跡・シミュレートする計算モデルについて述べる。 内部表現の2つの重要な要素(「観測」と「見える」)を記述し、よく知られたコンピュータビジョン用語(エンコーディングと復号)に関連付ける。 これらの要素が組み合わさってセミオティックネットワークを形成し、物体の知覚と人間のコミュニケーションの認識をシミュレートする。 現在、ほとんどのニューラルネットワークは解釈できない。 一方で、私たちのモデルは、この欠点から自由です。 いくつかの実験を行い,モデルの可視性を示した。 ネットワークを任意の分類ネットワークの前処理ユニットとして使用する方法について述べる。 実験では、コンプレックスネットワークは、小さなトレーニングデータでデータセットの分類ネットワークの平均を上回っています。 将来の作業は、私たちのモデルを活用して、人間のコミュニケーションと個人的表現をよりよく理解するでしょう。

Humans perceive objects daily and communicate their perceptions using various channels. Here, we describe a computational model that track and simulate objects' perception, and their representations as they pass in communication. We describe two key components of our internal representation ('observed' and 'seen') and relate them to familiar computer vision terms (encoding and decoding). These elements joined together to form semiotic networks, which simulate awareness in object perception and human communication. Nowadays, most neural networks are uninterpretable. On the other hand, our model is free from this disadvantages. We performed several experiments and demonstrated the visibility of our model. We describe how our network may be used as preprocessing unit to any classification network. In our experiments the compound network overperforms in average the classification network at datasets with small training data. Future work would leverage our model to gain better understanding of human communications and personal representations.
翻訳日:2023-10-12 11:16:45 公開日:2023-10-08
# TILFA: 引数マイニングにおけるテキスト,イメージ,レイアウト融合のための統一フレームワーク

TILFA: A Unified Framework for Text, Image, and Layout Fusion in Argument Mining ( http://arxiv.org/abs/2310.05210v1 )

ライセンス: Link先を確認
Qing Zong, Zhaowei Wang, Baixuan Xu, Tianshi Zheng, Haochen Shi, Weiqi Wang, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) Argument Mining (AM)の主な目標は、著者のスタンスを分析することである。 テキストのみに焦点を当てた以前のAMデータセットとは異なり、第10回Argument Miningワークショップの共有タスクでは、テキストとイメージの両方を含むデータセットが導入されている。 これらの画像は、視覚的要素と光学的特徴の両方を含んでいる。 我々の新しいフレームワークであるTILFA(Argument Miningにおけるテキスト、画像、レイアウトフュージョンのための統一フレームワーク)は、この混合データを扱うように設計されています。 テキストの理解だけでなく、光学文字の検出や画像のレイアウトの詳細の認識も優れている。 我々のモデルは既存のベースラインを大幅に上回り、この共有タスクにおけるArgumentative Stance Classificationサブタスクのリーダーボードの第1位であるKnowCompをチームから得ています。

A main goal of Argument Mining (AM) is to analyze an author's stance. Unlike previous AM datasets focusing only on text, the shared task at the 10th Workshop on Argument Mining introduces a dataset including both text and images. Importantly, these images contain both visual elements and optical characters. Our new framework, TILFA (A Unified Framework for Text, Image, and Layout Fusion in Argument Mining), is designed to handle this mixed data. It excels at not only understanding text but also detecting optical characters and recognizing layout details in images. Our model significantly outperforms existing baselines, earning our team, KnowComp, the 1st place in the leaderboard of Argumentative Stance Classification subtask in this shared task.
翻訳日:2023-10-12 11:16:31 公開日:2023-10-08
# 非対称局所適応カーネル学習によるカーネルフレキシビリティ向上

Enhancing Kernel Flexibility via Learning Asymmetric Locally-Adaptive Kernels ( http://arxiv.org/abs/2310.05236v1 )

ライセンス: Link先を確認
Fan He, Mingzhen He, Lei Shi, Xiaolin Huang and Johan A.K. Suykens(参考訳) 十分な柔軟性の欠如は、手動で設計され、事前管理され、訓練できないカーネルに依存する、カーネルベースの学習の重要なボトルネックである。 本稿では,ローカル適応バンド幅(LAB)の概念をトレーニング可能なパラメータとして導入し,ラジアル基底関数(RBF)カーネルを強化することにより,LAB RBFカーネルを実現する。 LAB RBFカーネルのパラメータはデータ依存であり、データセットによってその数は増加し、多様なデータパターンへの適応性が向上し、学習された関数の柔軟性が向上する。 この新しい柔軟性はまた、特に非対称性と効率的な学習アルゴリズムの必要性に関して、課題をもたらす。 これらの課題に対処するため,本論文は非対称カーネルリッジ回帰フレームワークを初めて確立し,反復カーネル学習アルゴリズムを導入する。 この斬新なアプローチは、広範なサポートデータの需要を減らすだけでなく、利用可能なトレーニングデータの帯域幅をトレーニングすることで、一般化を大幅に改善する。 実データセットに対する実験結果は,提案アルゴリズムの顕著な性能を裏付けるものであり,Nystr\"om近似に基づくアルゴリズムと比較して,大規模データセットを扱う優れた能力を示している。 さらに、既存のカーネルベースの学習手法よりも回帰精度が大幅に向上し、残余のニューラルネットワークを超えていることも示している。

The lack of sufficient flexibility is the key bottleneck of kernel-based learning that relies on manually designed, pre-given, and non-trainable kernels. To enhance kernel flexibility, this paper introduces the concept of Locally-Adaptive-Bandwidths (LAB) as trainable parameters to enhance the Radial Basis Function (RBF) kernel, giving rise to the LAB RBF kernel. The parameters in LAB RBF kernels are data-dependent, and its number can increase with the dataset, allowing for better adaptation to diverse data patterns and enhancing the flexibility of the learned function. This newfound flexibility also brings challenges, particularly with regards to asymmetry and the need for an efficient learning algorithm. To address these challenges, this paper for the first time establishes an asymmetric kernel ridge regression framework and introduces an iterative kernel learning algorithm. This novel approach not only reduces the demand for extensive support data but also significantly improves generalization by training bandwidths on the available training data. Experimental results on real datasets underscore the remarkable performance of the proposed algorithm, showcasing its superior capability in handling large-scale datasets compared to Nystr\"om approximation-based algorithms. Moreover, it demonstrates a significant improvement in regression accuracy over existing kernel-based learning methods and even surpasses residual neural networks.
翻訳日:2023-10-12 09:12:24 公開日:2023-10-08
# 教師なし音声セグメンテーションにおける雑音単語境界のxls-r微調整

XLS-R fine-tuning on noisy word boundaries for unsupervised speech segmentation into words ( http://arxiv.org/abs/2310.05235v1 )

ライセンス: Link先を確認
Robin Algayres, Pablo Diego-Simon, Benoit Sagot, Emmanuel Dupoux(参考訳) 音声ストリームに明示的な単語境界がないため、テキストの監督なしに音声文を単語単位に分割する作業は特に困難である。 本研究では,低資源条件下でも,微調整によって新しいタスクに迅速に適応することが証明された,最新の自己教師型音声モデルを活用する。 半教師付き学習からインスピレーションを得て,トップ層音声セグメンテーションシステム(DPDP, VG-HuBERT, GradSeg, DP-Parse)が生成する単語境界をXLS-Rモデルに微調整する。 XLS-Rが微調整されると、別の微調整ステップのために順番に使用される新しい単語境界ラベルを推論する。 提案手法は,各システムの性能を常に改善し,異なる言語を特徴とする5つのコーパス上の単語トークンに対して,F1スコアによって測定された平均130%以上の新しい最先端技術を設定する。 最後に,ゼロショット方式では,微調整時に認識できない言語から音声を分割できる。

Due to the absence of explicit word boundaries in the speech stream, the task of segmenting spoken sentences into word units without text supervision is particularly challenging. In this work, we leverage the most recent self-supervised speech models that have proved to quickly adapt to new tasks through fine-tuning, even in low resource conditions. Taking inspiration from semi-supervised learning, we fine-tune an XLS-R model to predict word boundaries themselves produced by top-tier speech segmentation systems: DPDP, VG-HuBERT, GradSeg and DP-Parse. Once XLS-R is fine-tuned, it is used to infer new word boundary labels that are used in turn for another fine-tuning step. Our method consistently improves the performance of each system and sets a new state-of-the-art that is, on average 130% higher than the previous one as measured by the F1 score on correctly discovered word tokens on five corpora featuring different languages. Finally, our system can segment speech from languages unseen during fine-tuning in a zero-shot fashion.
翻訳日:2023-10-12 09:12:01 公開日:2023-10-08
# MindfulDiary: 精神科患者のジャーナリングを支援するための大規模言語モデル

MindfulDiary: Harnessing Large Language Model to Support Psychiatric Patients' Journaling ( http://arxiv.org/abs/2310.05231v1 )

ライセンス: Link先を確認
Taewan Kim, Seolyeong Bae, Hyun Ah Kim, Su-woo Lee, Hwajung Hong, Chanmo Yang, Young-Ho Kim(参考訳) メンタルヘルス分野では、LLM(Large Language Models)は将来性のある新しい機会を提供するが、その固有の複雑さと低コントロール性は、臨床環境での適合性に関する疑問を提起している。 私たちは、精神科患者が会話を通じて日々の経験を文書化するのを助けるために、LSMを組み込んだモバイルジャーナリングアプリMindfulDiaryを紹介します。 メンタルヘルスの専門家(MHP)と共同で設計されたMindfulDiaryは、フリーフォームの会話をしながら専門家のガイドラインを安全に遵守するための州ベースのアプローチを採用している。 重度のうつ病性障害28名と精神科医5名を対象とした4週間のフィールド調査の結果,マインドフルダイアリーの患者は,常に日々の記録を充実させ,精神科医の思考や日常の状況を理解することで,患者への共感を深めることができた。 これらの知見をもとに, 精神保健領域におけるLCMの活用, 技術的実現可能性, 臨床環境への統合の意義について考察した。

In the mental health domain, Large Language Models (LLMs) offer promising new opportunities, though their inherent complexity and low controllability have raised questions about their suitability in clinical settings. We present MindfulDiary, a mobile journaling app incorporating an LLM to help psychiatric patients document daily experiences through conversation. Designed in collaboration with mental health professionals (MHPs), MindfulDiary takes a state-based approach to safely comply with the experts' guidelines while carrying on free-form conversations. Through a four-week field study involving 28 patients with major depressive disorder and five psychiatrists, we found that MindfulDiary supported patients in consistently enriching their daily records and helped psychiatrists better empathize with their patients through an understanding of their thoughts and daily contexts. Drawing on these findings, we discuss the implications of leveraging LLMs in the mental health domain, bridging the technical feasibility and their integration into clinical settings.
翻訳日:2023-10-12 09:11:39 公開日:2023-10-08
# 強化学習・ゲーム・制御における政策勾配法のグローバル収束

Global Convergence of Policy Gradient Methods in Reinforcement Learning, Games and Control ( http://arxiv.org/abs/2310.05230v1 )

ライセンス: Link先を確認
Shicong Cen, Yuejie Chi(参考訳) 1次情報を用いて価値関数を最大化することで利子政策を探索する政策勾配法が,強化学習,ゲーム,制御における逐次意思決定にますます普及している。 しかしながら、政策勾配法の大域的最適性を保証することは、価値関数の非連結性のために非常に非自明である。 本発表では,グローバルコンバージェンス保証を伴う政策勾配手法の理解と開発における最近の進歩に注目し,有能な問題パラメータに関する有限時間収束率に着目した。

Policy gradient methods, where one searches for the policy of interest by maximizing the value functions using first-order information, become increasingly popular for sequential decision making in reinforcement learning, games, and control. Guaranteeing the global optimality of policy gradient methods, however, is highly nontrivial due to nonconcavity of the value functions. In this exposition, we highlight recent progresses in understanding and developing policy gradient methods with global convergence guarantees, putting an emphasis on their finite-time convergence rates with regard to salient problem parameters.
翻訳日:2023-10-12 09:11:18 公開日:2023-10-08
# 量子制御スタックの設計検証

Design Verification of the Quantum Control Stack ( http://arxiv.org/abs/2310.05229v1 )

ライセンス: Link先を確認
Seyed Amir Alavi and Samin Ishtiaq and Nick Johnson and Rojalin Mishra and Dwaraka Oruganti Nagalakshmi and Asher Pearl and Jan Snoeijs(参考訳) 本稿では,低温原子および超伝導量子コンピューティングハードウェアの制御に使用される古典的ソフトウェアとハードウェアスタックの検証について述べる。 本論文は量子コンピューティングの紹介と,古典的デバイス検証技術の適用方法の紹介として機能する。 量子制御スタックを構築する上での2つの大きな課題は、エッジでの正確な決定論的決定操作の生成と、中間層でのスケールアウト処理である。 どちらの課題も、ある種の機能的パフォーマンスの正しさに関係しています。 そして、いつものように、設計は厳格なパワー、メモリ、レイテンシの制約下にある。 量子制御スタックは、アルゴリズム、ソフトウェアランタイム、デジタルハードウェアの複雑な相互作用である。 私たちは、継続的インテグレーションやハードウェア自動化といった最新のソフトウェアアプローチからインスピレーションを得て、実験的な機能を現場の顧客に迅速に提供します。

This paper describes the verification of the classical software and hardware stack that is used to control cold atom- and superconducting-based quantum computing hardware. The paper serves both as an introduction to quantum computing and to how classical device verification techniques can be employed there. Two main challenges in building a quantum control stack are generating precise deterministic-timing operations at the edge and scaled-out processing in the middle layer. Both challenges are to do with a certain kind of functional performance correctness. And, as usual, the design lives under tight power, memory and latency constraints. The quantum control stack is a complex interaction of algorithms, software runtimes and digital hardware. We take inspiration from modern software approaches to engineering, such as continuous integration and hardware automation, to quickly ship experimental features to customers in the field.
翻訳日:2023-10-12 09:11:07 公開日:2023-10-08
# 物理を意識した機械学習は、機械学習とプロセスベースの水文学のための科学パラダイムに革命をもたらす

Physics-aware Machine Learning Revolutionizes Scientific Paradigm for Machine Learning and Process-based Hydrology ( http://arxiv.org/abs/2310.05227v1 )

ライセンス: Link先を確認
Qingsong Xu, Yilei Shi, Jonathan Bamber, Ye Tuo, Ralf Ludwig, Xiao Xiang Zhu(参考訳) 正確な水文理解と水循環予測は、特に人為的気候変動のダイナミックな影響の下で、水資源の管理に関わる科学的および社会的な課題に対処するために重要である。 既存のレビューは、この分野における機械学習(ML)の開発に重点を置いているが、異なるパラダイムとして、水文学とMLを明確に区別している。 本稿では,この障壁を克服し,両分野に革命を起こすための転換的アプローチとして,物理認識mlを導入する。 具体的には,先行物理知識や物理ベースモデリングをmlに統合した既存の方法論の構造化コミュニティ(paml)を構築することで,物理対応ml手法の包括的レビューを行う。 これらのpaml方法論を,物理データ誘導ml,物理インフォームml,物理埋め込みml,物理アウェアハイブリッド学習の4つの側面から体系的に解析した。 PaMLはML支援仮説を促進し、ビッグデータからの洞察を加速し、科学的発見を促進する。 まず,降雨流出水文過程や水力学過程を含む,pamlにおける水文学の系統的考察を行い,異なる目的やpaml手法に対する最も有望で挑戦的な方向性を強調する。 最後に、新しいPaMLベースの水文学プラットフォームであるHydroPMLが、水学応用の基礎としてリリースされた。 HydroPMLはMLの説明可能性と因果性を高め、デジタル水循環の実現の基礎となる。 HydroPMLプラットフォームはhttps://github.com/HydroPMLで公開されている。

Accurate hydrological understanding and water cycle prediction are crucial for addressing scientific and societal challenges associated with the management of water resources, particularly under the dynamic influence of anthropogenic climate change. Existing reviews predominantly concentrate on the development of machine learning (ML) in this field, yet there is a clear distinction between hydrology and ML as separate paradigms. Here, we introduce physics-aware ML as a transformative approach to overcome the perceived barrier and revolutionize both fields. Specifically, we present a comprehensive review of the physics-aware ML methods, building a structured community (PaML) of existing methodologies that integrate prior physical knowledge or physics-based modeling into ML. We systematically analyze these PaML methodologies with respect to four aspects: physical data-guided ML, physics-informed ML, physics-embedded ML, and physics-aware hybrid learning. PaML facilitates ML-aided hypotheses, accelerating insights from big data and fostering scientific discoveries. We first conduct a systematic review of hydrology in PaML, including rainfall-runoff hydrological processes and hydrodynamic processes, and highlight the most promising and challenging directions for different objectives and PaML methods. Finally, a new PaML-based hydrology platform, termed HydroPML, is released as a foundation for hydrological applications. HydroPML enhances the explainability and causality of ML and lays the groundwork for the digital water cycle's realization. The HydroPML platform is publicly available at https://github.com/HydroPML.
翻訳日:2023-10-12 09:10:57 公開日:2023-10-08
# 連続語サイズの音声トークンに基づく生成音声言語モデル

Generative Spoken Language Model based on continuous word-sized audio tokens ( http://arxiv.org/abs/2310.05224v1 )

ライセンス: Link先を確認
Robin Algayres, Yossi Adi, Tu Anh Nguyen, Jade Copet, Gabriel Synnaeve, Benoit Sagot, Emmanuel Dupoux(参考訳) NLPでは、単語やサブワードに基づくテキスト言語モデルは、文字ベースの言語よりも優れていることが知られている。 しかし、音声コミュニティでは、音声 lms の標準入力は 20ms または 40ms の離散単位(音素よりも短い)である。 単語ベースLMからインスピレーションを得て,多種多様な表現型言語出力を生成可能な単語サイズ連続評価音声埋め込みに基づく生成音声言語モデル(GSLM)を導入する。 これは、語彙型のルックアップテーブルをレキシカルエンベディング関数に置き換え、コントラスト損失によるクロスエントロピー損失、k-NNサンプリングによるマルチノードサンプリングにより得られる。 得られたモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。 その性能は、自動測定と主観的人間の判断による生成品質に関する離散単位gslmと同等である。 さらに、200msの大きなユニットのおかげで、メモリ効率は5倍になる。 また、語彙埋め込み者の前後の埋め込みは音韻的かつ意味的に解釈可能である。

In NLP, text language models based on words or subwords are known to outperform their character-based counterparts. Yet, in the speech community, the standard input of spoken LMs are 20ms or 40ms-long discrete units (shorter than a phoneme). Taking inspiration from word-based LM, we introduce a Generative Spoken Language Model (GSLM) based on word-size continuous-valued audio embeddings that can generate diverse and expressive language output. This is obtained by replacing lookup table for lexical types with a Lexical Embedding function, the cross entropy loss by a contrastive loss, and multinomial sampling by k-NN sampling. The resulting model is the first generative language model based on word-size continuous embeddings. Its performance is on par with discrete unit GSLMs regarding generation quality as measured by automatic metrics and subjective human judgements. Moreover, it is five times more memory efficient thanks to its large 200ms units. In addition, the embeddings before and after the Lexical Embedder are phonetically and semantically interpretable.
翻訳日:2023-10-12 09:10:31 公開日:2023-10-08
# コモディティハードウェア上での機械学習プリミティブの高速化

Accelerating Machine Learning Primitives on Commodity Hardware ( http://arxiv.org/abs/2310.05218v1 )

ライセンス: Link先を確認
Roman Snytsar(参考訳) Sliding Window Sumアルゴリズムはディープニューラルネットワークのトレーニングと推論に成功している。 プールと畳み込み1-Dプリミティブの両方をスライディング和として表現し、共有構造を持つ計算カーネルによって評価する方法を以前にも示してきた。 本稿では,Deep Neural Networks (DNN) における一般行列乗算法 (GEMM) に基づく畳み込みよりも効率的な方法として,スライディングウィンドウ畳み込み技術について広範な研究を行う。 スライディングウィンドウ技術はメモリの肥大化問題に対処し、2次元畳み込みの大幅な高速化を示す。 我々は、特定のフィルタサイズのカスタムカーネルを含む、様々な実装でこの技術の性能を探求する。 この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。 これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。 また,Sliding Window 技術によるモデル圧縮手法と最適化ネットワークアーキテクチャの互換性についても論じ,これらの分野のさらなる研究を奨励する。

Sliding Window Sum algorithms have been successfully used for training and inference of Deep Neural Networks. We have shown before how both pooling and convolution 1-D primitives could be expressed as sliding sums and evaluated by the compute kernels with a shared structure. In this paper, we present an extensive study of the Sliding Window convolution technique as a more efficient alternative to the commonly used General Matrix Multiplication (GEMM) based convolution in Deep Neural Networks (DNNs). The Sliding Window technique addresses the memory bloating problem and demonstrates a significant speedup in 2-D convolution. We explore the performance of this technique on a range of implementations, including custom kernels for specific filter sizes. Our results suggest that the Sliding Window computation kernels can outperform GEMM-based convolution on a CPU and even on dedicated hardware accelerators. This could promote a wider adoption of AI on low-power and low-memory devices without the need for specialized hardware. We also discuss the compatibility of model compression methods and optimized network architectures with the Sliding Window technique, encouraging further research in these areas.
翻訳日:2023-10-12 09:10:17 公開日:2023-10-08
# 人間の行動からみた言語モデルの提案

Probing Language Models from A Human Behavioral Perspective ( http://arxiv.org/abs/2310.05216v1 )

ライセンス: Link先を確認
Xintong Wang, Xiaoyu Li, Xingshan Li, and Chris Biemann(参考訳) 大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。 しかし、フィードフォワードネットワークやマルチヘッド自己注意といった予測プロセスや内部メカニズムの理解はいまだに未解明のままである。 本研究では,人間の行動的観点からLLMを探索し,LLMの値と視線追跡の指標との関連性を検討した。 その結果,LLMはRNNベースのLMとは異なる予測パターンを示すことがわかった。 さらに、FFN層の拡大に伴い、記憶能力と言語知識の符号化能力もピークまで上昇し、その後、理解能力に焦点をあてる。 自己注意の機能は複数の頭部に分散する。 最後に、ゲート機構を精査し、情報の流れを制御し、一部のゲートを推進し、他のゲートは情報を排除する。

Large Language Models (LLMs) have emerged as dominant foundational models in modern NLP. However, the understanding of their prediction process and internal mechanisms, such as feed-forward networks and multi-head self-attention, remains largely unexplored. In this study, we probe LLMs from a human behavioral perspective, correlating values from LLMs with eye-tracking measures, which are widely recognized as meaningful indicators of reading patterns. Our findings reveal that LLMs exhibit a prediction pattern distinct from that of RNN-based LMs. Moreover, with the escalation of FFN layers, the capacity for memorization and linguistic knowledge encoding also surges until it peaks, subsequently pivoting to focus on comprehension capacity. The functions of self-attention are distributed across multiple heads. Lastly, we scrutinize the gate mechanisms, finding that they control the flow of information, with some gates promoting, while others eliminating information.
翻訳日:2023-10-12 09:09:59 公開日:2023-10-08
# 古典的暗号プリミティブにおける通信削減のための量子的アプローチ

A Quantum Approach for Reducing Communications in Classical Cryptographic Primitives ( http://arxiv.org/abs/2310.05213v1 )

ライセンス: Link先を確認
Jiayu Zhang(参考訳) 量子暗号は、古典的暗号では達成できないものを達成するのにどのように役立つのか? 本稿では,古典関数に対する簡潔なRSPV(succinct RSPV)という問題について考察する。 クライアントは関数入力としてランダムな$x$をサンプルし、プロトコルを使用して$f(x)$をサーバに送る。 さらに、(1)サーバが悪意のある場合には、パススペースで知っているものは、$f(x)$以下でなければならない; (2)通信は簡潔でなければならない(つまり、$f$を評価する実行時間とは独立している)。 この問題を古典暗号で解くには、強力な暗号プリミティブが必要である。 意外なことに、より弱い仮定の下で量子技術でこの問題を解くことは可能である。 量子通信と計算を可能にすることで,ハッシュ関数の崩壊のみを仮定して,この問題に対するプロトコルを与える [unr16]。 我々の研究は、量子暗号が、従来の暗号プリミティブを重く使用せずに有意義なプリミティブでの通信を減らすという、新しいタイプの問題において、古典暗号より優れているという興味深いメッセージを伝える。

How could quantum cryptography help us achieve what are not achievable in classical cryptography? In this work we consider the following problem, which we call succinct RSPV for classical functions (sRCF). Suppose $f$ is a function described by a polynomial time classical Turing machine, which is public; the client would like to sample a random $x$ as the function input and use a protocol to send $f(x)$ to the server. What's more, (1) when the server is malicious, what it knows in the passing space should be no more than $f(x)$; (2) the communication should be succinct (that is, independent to the running time of evaluating $f$). Solving this problem in classical cryptography seems to require strong cryptographic primitives. We show that, perhaps surprisingly, it's possible to solve this problem with quantum techniques under much weaker assumptions. By allowing for quantum communication and computations, we give a protocol for this problem assuming only collapsing hash functions [Unr16]. Our work conveys an interesting message that quantum cryptography could outperform classical cryptography in a new type of problems, that is, to reduce communications in meaningful primitives without using heavy classical cryptographic primitives.
翻訳日:2023-10-12 09:09:45 公開日:2023-10-08
# 大規模言語モデルを用いた知識付き推論による説明可能なクレーム検証

Explainable Claim Verification via Knowledge-Grounded Reasoning with Large Language Models ( http://arxiv.org/abs/2310.05253v1 )

ライセンス: Link先を確認
Haoran Wang, Kai Shu(参考訳) クレーム検証は誤報と戦う上で重要な役割を果たす。 クレーム検証に関する既存の研究は有望な結果を示しているが、未解決のままのパズルの重要なピースは、大規模な作成に費用がかかる人手によるデータに頼ることなくクレームを検証する方法を理解することである。 さらに、モデルが決定を正当化し、人間のファクトチェックを支援する包括的な説明を提供することも重要である。 本稿では,Large Language Models (LLMs) を用いた注釈付きエビデンスを必要とせず,複雑なクレームを検証し,説明を生成できる一階述語論理型知識収集(FOLK)推論を提案する。 FOLKは、LLMの文脈内学習能力を活用して、検証が必要なサブステートメントに対応する述語からなる一階述語論理(FOL)節に変換する。 次に、FOLKは、知識に基づく質問と回答のペアのセットに対してFOL-Guided推論を行い、正確性予測を行い、その意思決定プロセスを正当化するための説明を生成する。 このプロセスは我々のモデルを非常に説明しやすくし、その推論過程を人間の読みやすい形で明確に説明する。 実験の結果,FOLKは,様々なクレーム検証課題を含む3つのデータセットに対して高いベースラインを達成できた。 私たちのコードとデータは利用可能です。

Claim verification plays a crucial role in combating misinformation. While existing works on claim verification have shown promising results, a crucial piece of the puzzle that remains unsolved is to understand how to verify claims without relying on human-annotated data, which is expensive to create at a large scale. Additionally, it is important for models to provide comprehensive explanations that can justify their decisions and assist human fact-checkers. This paper presents First-Order-Logic-Guided Knowledge-Grounded (FOLK) Reasoning that can verify complex claims and generate explanations without the need for annotated evidence using Large Language Models (LLMs). FOLK leverages the in-context learning ability of LLMs to translate the claim into a First-Order-Logic (FOL) clause consisting of predicates, each corresponding to a sub-claim that needs to be verified. Then, FOLK performs FOL-Guided reasoning over a set of knowledge-grounded question-and-answer pairs to make veracity predictions and generate explanations to justify its decision-making process. This process makes our model highly explanatory, providing clear explanations of its reasoning process in human-readable form. Our experiment results indicate that FOLK outperforms strong baselines on three datasets encompassing various claim verification challenges. Our code and data are available.
翻訳日:2023-10-12 09:05:08 公開日:2023-10-08
# 低ランクカーネルモデルによるGNN性能の簡易化

Simplifying GNN Performance with Low Rank Kernel Models ( http://arxiv.org/abs/2310.05250v1 )

ライセンス: Link先を確認
Luciano Vinas and Arash A. Amini(参考訳) 半教師付きノード分類(SSNC)に対する最近のスペクトルGNNアプローチを再考する。 現在のGNNアーキテクチャの多くはオーバーエンジニアリングされる可能性があると仮定する。 代わりに、スペクトル領域に適用された非パラメトリック推定からのより単純な伝統的な手法は、多くの深層学習にインスパイアされたGNN設計を置き換えることができる。 これらの従来の手法は、多くの一般的なssncベンチマークで最先端のパフォーマンスに達する様々なグラフタイプに適しているように見える。 さらに,近年のGNN手法の性能改善は,評価基準の変化によるものである可能性が示唆された。 最後に、gnnスペクトルフィルタリング技術に関連する様々なハイパーパラメータについて、アブレーション研究を行う。 コード提供: https://github.com/lucianoavinas/lowrank-gnn-kernels

We revisit recent spectral GNN approaches to semi-supervised node classification (SSNC). We posit that many of the current GNN architectures may be over-engineered. Instead, simpler, traditional methods from nonparametric estimation, applied in the spectral domain, could replace many deep-learning inspired GNN designs. These conventional techniques appear to be well suited for a variety of graph types reaching state-of-the-art performance on many of the common SSNC benchmarks. Additionally, we show that recent performance improvements in GNN approaches may be partially attributed to shifts in evaluation conventions. Lastly, an ablative study is conducted on the various hyperparameters associated with GNN spectral filtering techniques. Code available at: https://github.com/lucianoAvinas/lowrank-gnn-kernels
翻訳日:2023-10-12 09:04:25 公開日:2023-10-08
# 変圧器の文脈収束

In-Context Convergence of Transformers ( http://arxiv.org/abs/2310.05249v1 )

ライセンス: Link先を確認
Yu Huang, Yuan Cheng, Yingbin Liang(参考訳) トランスフォーマーは近年、現代の機械学習における多くの領域に革命をもたらしており、その顕著な発見は、モデルがパラメータを微調整することなくタスク固有のプロンプトを利用することで、目に見えないタスクを解決できる、コンテキスト内学習能力である。 これはまた、線形変圧器のみに焦点を当てた変換器の文脈内学習機構を理解することを目的とした最近の理論的研究にも影響を与えた。 本研究では,1層トランスフォーマの学習ダイナミクスを学習する第一歩として,勾配降下を通したソフトマックスアテンションを学習し,線形関数クラスを学習する。 我々は、各トークンがバランスのとれたか不均衡な方法で特徴ベクトルの集合からランダムにサンプリングされる構造化データモデルを考える。 バランスの取れた特徴量を持つデータに対して,注意マップのトレーニングダイナミクスの2段階にわたって解析を行い,予測誤差がほぼゼロに近い有限時間収束保証を確立する。 さらに、不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程を採り、まずトランスフォーマーが支配的特徴のクエリトークンに対してほぼゼロに近い予測誤差に収束し、その後、1と4のトレーニングフェーズを経て、未表現特徴のクエリトークンに対してほぼゼロに近い予測誤差に収束することを示す。 本研究は,2種類の注意重みの競合強度を解析し,異なる学習段階を決定する新しい手法を特徴とする。

Transformers have recently revolutionized many domains in modern machine learning and one salient discovery is their remarkable in-context learning capability, where models can solve an unseen task by utilizing task-specific prompts without further parameters fine-tuning. This also inspired recent theoretical studies aiming to understand the in-context learning mechanism of transformers, which however focused only on linear transformers. In this work, we take the first step toward studying the learning dynamics of a one-layer transformer with softmax attention trained via gradient descent in order to in-context learn linear function classes. We consider a structured data model, where each token is randomly sampled from a set of feature vectors in either balanced or imbalanced fashion. For data with balanced features, we establish the finite-time convergence guarantee with near-zero prediction error by navigating our analysis over two phases of the training dynamics of the attention map. More notably, for data with imbalanced features, we show that the learning dynamics take a stage-wise convergence process, where the transformer first converges to a near-zero prediction error for the query tokens of dominant features, and then converges later to a near-zero prediction error for the query tokens of under-represented features, respectively via one and four training phases. Our proof features new techniques for analyzing the competing strengths of two types of attention weights, the change of which determines different training phases.
翻訳日:2023-10-12 09:03:54 公開日:2023-10-08
# 可検証性のあるリモート状態生成の再検討:高い特性を持つ新しい表記セット

Revisiting Remote State Preparation with Verifiability: A New Set of Notions with Well-behaved Properties ( http://arxiv.org/abs/2310.05246v1 )

ライセンス: Link先を確認
Jiayu Zhang(参考訳) 検証可能性(verifiability:rspv)を備えたリモート状態準備では、クライアントはサーバ側で量子状態(状態ファミリからサンプリング)を作成し、理想的にはクライアントがその完全な記述を知っているが、サーバは状態自身を保持し、保持するだけである。 近年,シングルサーバの計算安全設定 [MV21] に一般化されているセルフテストという概念は,サーバの動作を認証することを目的としている。 これらの概念は様々な異なる設定で広く研究され、多くの量子プロトコルにおいて基本的な構成要素となっている。 しかし、既存の作品には多くの定義の変種があり、これらの変種の多くはシーケンシャルコンポーザビリティのような望ましい性質を持っていない。 この背景には、より一般的なソリューションをサポートする可能性のある新しいフレームワークが望ましい。 本稿では,既存の作品(BDSSTW01,GV19,Zha22,RY21)から概念や基本概念を選択し,これらの問題に対してより汎用的で優れた枠組みを開発することを目的とする。 シミュレーションに基づく音質(BDSSTW01,GV19,Zha22)でRSPVを選択し,構成性などの基本特性について検討する。 さらに,サーバの動作を検証可能な方法で制御するために,検証可能性(roav)を自己テストの代替として,リモートオペレータアプリケーションという新しい概念を導入する。 この概念では、サーバは未知の入力状態を備えており、特定のオペレータ(オペレータファミリーからサンプリングされた)を状態に実行することが求められ、クライアントはオペレータ記述を知っているが、最後にサーバが知るものは、入力状態に適用された操作の出力状態に限られる。 最後に,これらの概念が量子暗号プロトコルに新たな機能性をもたらす可能性について論じる。

In remote state preparation with verifiability (RSPV), a client would like to prepare a quantum state (sampled from a state family) on the server side, such that ideally the client knows its full description, while the server holds and only holds the state itself. A closely related notion called self-testing, which is recently generalized to the single-server computationally-secure setting [MV21], aims at certifying the server's operation. These notions have been widely studied in various different settings and have become fundamental building blocks in many quantum protocols. However, there are many variants of definitions in existing works, and many of these variants do not have some desirable properties like sequential composability. In this background, a new framework that could potentially support more general solutions is desirable. In this paper, we choose notions or basic ideas from existing works [BDSSTW01,GV19,Zha22,RY21] and introduce new notions, with the goal of developing a more general, well-behaved framework for these problems. We choose RSPV with simulation-based soundness [BDSSTW01,GV19,Zha22], and study its basic properties like composability. Furthermore, for controlling the server's operation in a verifiable way, we introduce a new notion named remote operator application with verifiability (ROAV) as a replacement of self-testing. In this notion the server is provided with an unknown input state, and is supposed to perform a specific operator (sampled from an operator family) to the state; the client knows the operator description, but what server knows in the end is limited to the output state of the operation applied on the input state. Finally, we show several basic constructions of protocols under our set of notions, and discuss why these notions could potentially lead to quantum cryptographic protocols with new functionalities.
翻訳日:2023-10-12 09:03:08 公開日:2023-10-08
# scanet:弱教師付きビデオモーメント検索のためのシーン複雑性対応ネットワーク

SCANet: Scene Complexity Aware Network for Weakly-Supervised Video Moment Retrieval ( http://arxiv.org/abs/2310.05241v1 )

ライセンス: Link先を確認
Sunjae Yoon, Gwanhyeong Koo, Dahyun Kim, Chang D. Yoo(参考訳) video moment searchは、与えられた言語クエリに対応するビデオ内のモーメントをローカライズすることを目的としている。 時間的モーメントをアノテートするコストを回避するため、弱い教師付きVMR(wsVMR)システムが研究されている。 このようなシステムでは、モーメント候補として多数の提案を生成し、最も適切な提案を選択することが一般的なアプローチである。 これらの提案には、ビデオに多くの区別可能なシーンが候補として含まれていると仮定される。 しかし、既存のwsVMRシステムの提案では、各ビデオのシーン数が異なるため、ビデオに関係なくヒューリスティックに決定される。 検索システムは,各映像のシーン数によって生じる複雑さに対処できるべきだ,と我々は主張する。 そこで本研究では,各映像中の複数のシーンの「シーン複雑性」を計測し,各映像中のシーンの様々な複雑さに対応する適応的提案を生成する,Scene Complexity Aware Network (SCANet) と呼ばれる検索システムを提案する。 3つの検索ベンチマーク(charades-sta, activitynet, tvr)の実験結果が最先端のパフォーマンスを達成し, シーンの複雑さを取り入れる効果を実証した。

Video moment retrieval aims to localize moments in video corresponding to a given language query. To avoid the expensive cost of annotating the temporal moments, weakly-supervised VMR (wsVMR) systems have been studied. For such systems, generating a number of proposals as moment candidates and then selecting the most appropriate proposal has been a popular approach. These proposals are assumed to contain many distinguishable scenes in a video as candidates. However, existing proposals of wsVMR systems do not respect the varying numbers of scenes in each video, where the proposals are heuristically determined irrespective of the video. We argue that the retrieval system should be able to counter the complexities caused by varying numbers of scenes in each video. To this end, we present a novel concept of a retrieval system referred to as Scene Complexity Aware Network (SCANet), which measures the `scene complexity' of multiple scenes in each video and generates adaptive proposals responding to variable complexities of scenes in each video. Experimental results on three retrieval benchmarks (i.e., Charades-STA, ActivityNet, TVR) achieve state-of-the-art performances and demonstrate the effectiveness of incorporating the scene complexity.
翻訳日:2023-10-12 09:01:27 公開日:2023-10-08
# 超伝導量子ビットを用いた量子センシングの基礎物理

Quantum Sensing with superconducting qubits for Fundamental Physics ( http://arxiv.org/abs/2310.05238v1 )

ライセンス: Link先を確認
Roberto Moretti, Herv\`e Ats\`e Corti, Danilo Labranca, Felix Ahrens, Guerino Avallone, Danilo Babusci, Leonardo Banchi, Carlo Barone, Matteo Mario Beretta, Matteo Borghesi, Bruno Buonomo, Enrico Calore, Giovanni Carapella, Fabio Chiarello, Alessandro Cian, Alessando Cidronali, Filippo Costa, Alessandro Cuccoli, Alessandro D'Elia, Daniele Di Gioacchino, Stefano Di Pascoli, Paolo Falferi, Marco Fanciulli, Marco Faverzani, Giulietto Felici, Elena Ferri, Giovanni Filatrella, Luca Gennaro Foggetta, Claudio Gatti, Andrea Giachero, Francesco Giazotto, Damiano Giubertoni, Veronica Granata, Claudio Guarcello, Gianluca Lamanna, Carlo Ligi, Giovanni Maccarrone, Massimo Macucci, Giuliano Manara, Federica Mantegazzini, Paolo Marconcini, Benno Margesin, Francesco Mattioli, Andrea Miola, Angelo Nucciotti, Luca Origo, Sergio Pagano, Federico Paolucci, Luca Piersanti, Alessio Rettaroli, Stefano Sanguinetti, Sebastiano Fabio Schifano, Paolo Spagnolo, Simone Tocci, Alessandra Toncelli, Guido Torrioli, Andrea Vinante(参考訳) 量子センシング(Quantum Sensing)は、ダークマター(ダークマター)の探索として基礎物理学に応用されている分野である。 超伝導量子ビットの製造における最近の進歩は、量子センシングの進行に寄与している。 このようなデバイスは、量子非劣化測定(QND)により、数GHzの単一光子の検出に成功している。 この技術は、Axions や Dark Photons などの高精度マイクロ波光子検出実験に基づく実験において、感度の向上と暗カウント率の顕著な抑制により、吸収することなく、同じ光子の存在を複数回検出することができる。 この文脈において、infn qub-itプロジェクトの目的は、qndを利用する超伝導量子ビットに基づく単光子カウンタを実現することである。 シミュレーションステップは、製造前に設計を最適化し、低温環境下で製造したチップを最終的に特徴付けるための基本となる。 本研究では,Qub-ITによる最初の超伝導トランスモン量子ビットデバイスの設計とシミュレーションについて述べる。

Quantum Sensing is a rapidly expanding research field that finds one of its applications in Fundamental Physics, as the search for Dark Matter. Recent developments in the fabrication of superconducting qubits are contributing to driving progress in Quantum Sensing. Such devices have already been successfully applied in detecting few-GHz single photons via Quantum Non-Demolition measurement (QND). This technique allows us to detect the presence of the same photon multiple times without absorbing it, with remarkable sensitivity improvements and dark count rate suppression in experiments based on high-precision microwave photon detection, such as Axions and Dark Photons search experiments. In this context, the INFN Qub-IT project goal is to realize an itinerant single-photon counter based on superconducting qubits that will exploit QND. The simulation step is fundamental for optimizing the design before manufacturing and finally characterizing the fabricated chip in a cryogenic environment. In this study we present Qub-IT's status towards the characterization of its first superconducting transmon qubit devices, illustrating their design and simulation.
翻訳日:2023-10-12 09:01:06 公開日:2023-10-08
# 医用画像の標準化と拡張のための潜時拡散モデル

Latent Diffusion Model for Medical Image Standardization and Enhancement ( http://arxiv.org/abs/2310.05237v1 )

ライセンス: Link先を確認
Md Selim, Jie Zhang, Faraneh Fathi, Michael A. Brooks, Ge Wang, Guoqiang Yu, Jin Chen(参考訳) ct(ct)は肺癌のスクリーニング、診断、治療、予後に有効なツールであり、時間的および空間的な腫瘍の変化を定量化する豊富な特徴の源を提供する。 それでも、CTスキャナーとカスタマイズされた取得プロトコルの多様性は、同一患者の評価においても、テクスチャの特徴に重大な矛盾をもたらす可能性がある。 この可変性は、一貫した画像特徴に依存するその後の研究に根本的な課題をもたらす。 既存のCT画像標準化モデルは、主にGANベースの教師付き学習または半教師付き学習を利用しているが、その性能は限られている。 異なる非標準分布を標準化形式に変換するために、潜時空間で動作する革新的なスコアベースDDPMモデルであるDiffusionCTを提案する。 このアーキテクチャは、ボトルネック位置に統合されたDDPMモデルにより強化されたU-Netベースのエンコーダデコーダを含む。 まず、エンコーダデコーダをDDPMを埋め込むことなく独立して訓練し、入力データの潜在表現をキャプチャする。 第二に、潜在DDPMモデルはエンコーダ-デコーダパラメータを固定しながら訓練される。 最後に、デコーダは変換された潜在表現を使用して標準化されたCT画像を生成し、下流解析のより一貫性のある基盤を提供する。 DiffusionCTによる画像の標準化の顕著な改善が示唆された。 さらに,SPAD画像における画像ノイズを大幅に低減し,DiffusionCTの有効性を検証した。

Computed tomography (CT) serves as an effective tool for lung cancer screening, diagnosis, treatment, and prognosis, providing a rich source of features to quantify temporal and spatial tumor changes. Nonetheless, the diversity of CT scanners and customized acquisition protocols can introduce significant inconsistencies in texture features, even when assessing the same patient. This variability poses a fundamental challenge for subsequent research that relies on consistent image features. Existing CT image standardization models predominantly utilize GAN-based supervised or semi-supervised learning, but their performance remains limited. We present DiffusionCT, an innovative score-based DDPM model that operates in the latent space to transform disparate non-standard distributions into a standardized form. The architecture comprises a U-Net-based encoder-decoder, augmented by a DDPM model integrated at the bottleneck position. First, the encoder-decoder is trained independently, without embedding DDPM, to capture the latent representation of the input data. Second, the latent DDPM model is trained while keeping the encoder-decoder parameters fixed. Finally, the decoder uses the transformed latent representation to generate a standardized CT image, providing a more consistent basis for downstream analysis. Empirical tests on patient CT images indicate notable improvements in image standardization using DiffusionCT. Additionally, the model significantly reduces image noise in SPAD images, further validating the effectiveness of DiffusionCT for advanced imaging tasks.
翻訳日:2023-10-12 09:00:46 公開日:2023-10-08
# アウトレーヤによる三元データのクラスタリング

Clustering Three-Way Data with Outliers ( http://arxiv.org/abs/2310.05288v1 )

ライセンス: Link先を確認
Katharine M. Clark and Paul D. McNicholas(参考訳) 行列変量分布は、最近のモデルベースのクラスタリングフィールドの追加であり、画像や時系列のような複雑な構造を持つ行列形式のデータを解析することができる。 近年の出現により、行列変量データに関する文献は限られており、これらのモデルでは外れ値を扱うことはより少ない。 行列変量正規データを異常値でクラスタリングする手法について論じる。 このアプローチは、サブセットログライクな分布の分布を使用し、oclustアルゴリズムを行列変数正規データに拡張し、反復的なアプローチで外れ値の検出とトリムを行う。

Matrix-variate distributions are a recent addition to the model-based clustering field, thereby making it possible to analyze data in matrix form with complex structure such as images and time series. Due to its recent appearance, there is limited literature on matrix-variate data, with even less on dealing with outliers in these models. An approach for clustering matrix-variate normal data with outliers is discussed. The approach, which uses the distribution of subset log-likelihoods, extends the OCLUST algorithm to matrix-variate normal data and uses an iterative approach to detect and trim outliers.
翻訳日:2023-10-12 08:52:19 公開日:2023-10-08
# 検索関連データアノテーションタスクの一般化誤りモデリング

Generalizable Error Modeling for Search Relevance Data Annotation Tasks ( http://arxiv.org/abs/2310.05286v1 )

ライセンス: Link先を確認
Heinrich Peters, Alireza Hashemi, James Rae(参考訳) 人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。 この文脈における重要な課題の1つは、MLモデルの性能を低下させるため、アノテーションエラーによって引き起こされることである。 本稿では,3つの業界規模のmlアプリケーション(音楽ストリーミング,ビデオストリーミング,モバイルアプリ)において,検索関連アノテーションタスクの潜在的なエラーを検出するように学習した予測エラーモデルを提案する。 広範囲な検索関連アノテーションプログラムから実世界データを取り上げ,中程度のモデル性能(auc=0.65-0.75)でエラーを予測でき,アプリケーション間でのモデル性能が良好に一般化できることを示した。 モデル説明可能性解析を行い,予測性能の主要な要因となる特徴の同定を行う。 さらに,予測エラー確率の高いタスクの優先順位付けが,修正されたアノテーションエラーの量(例えば,音楽ストリーミングアプリケーションにおいて40%の効率向上)を大幅に増加させる,監査の文脈におけるモデルの有用性を示す。 これらの結果は、自動エラー検出モデルが、データアノテーションプロセスの効率と品質を大幅に改善できることを示している。 そこで本研究では,データアノテーションプロセスにおける効率的なエラー管理に関する重要な知見を明らかにし,より広範なヒューマン・イン・ザ・ループMLの分野に寄与する。

Human data annotation is critical in shaping the quality of machine learning (ML) and artificial intelligence (AI) systems. One significant challenge in this context is posed by annotation errors, as their effects can degrade the performance of ML models. This paper presents a predictive error model trained to detect potential errors in search relevance annotation tasks for three industry-scale ML applications (music streaming, video streaming, and mobile apps) and assesses its potential to enhance the quality and efficiency of the data annotation process. Drawing on real-world data from an extensive search relevance annotation program, we illustrate that errors can be predicted with moderate model performance (AUC=0.65-0.75) and that model performance generalizes well across applications (i.e., a global, task-agnostic model performs on par with task-specific models). We present model explainability analyses to identify which types of features are the main drivers of predictive performance. Additionally, we demonstrate the usefulness of the model in the context of auditing, where prioritizing tasks with high predicted error probabilities considerably increases the amount of corrected annotation errors (e.g., 40% efficiency gains for the music streaming application). These results underscore that automated error detection models can yield considerable improvements in the efficiency and quality of data annotation processes. Thus, our findings reveal critical insights into effective error management in the data annotation process, thereby contributing to the broader field of human-in-the-loop ML.
翻訳日:2023-10-12 08:52:08 公開日:2023-10-08
# パーソナライズされたオウムはより危険か? 対話システムにおけるペルソナバイアスの評価

Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems ( http://arxiv.org/abs/2310.05280v1 )

ライセンス: Link先を確認
Yixin Wan, Jieyu Zhao, Nanyun Peng, Kai-Wei Chang, Aman Chadha(参考訳) 大規模言語モデルの最近の進歩は、会話における一般的な人格や特定の人格を模倣するなど、フリーフォームの指示に従うことを可能にする。 一般的なパーソナラは人口統計グループ(例えばアジア人)の個人を指し、特定のパーソナラは歴史的人物の実際の名前である。 ペルソナの採用により、対話システムはユーザに対してより魅力的で親しみやすいものになる一方で、モデル応答における社会的バイアスを悪化させ、さらにユーザとのインタラクションを通じて社会的な危害を生じさせる潜在的なリスクもある。 本稿では,有害な対話モデル行動の異なる人格的適応に対する感受性を規定する「人格バイアス」を体系的に研究する。 我々は、ペルソナバイアスを有害表現と有害合意のバイアスに分類し、攻撃性、有害継続性、配慮、ステレオタイプ合意、有害合意の5つの側面におけるパーソナバイアスを測定する包括的な評価枠組みを確立する。 さらに,汎用型および特定型モデルペルソナの包括的リストを持つ体系化されたペルソナデータセットであるuniversalpersonaを用いて,パーソナバイアスを総合的に調査する。 blender、chatgpt、alpaca、vicunaの4つの異なるモデルのベンチマークによって、これらの対話システムにおける重要なペルソナバイアスが明らかになった。

Recent advancements in Large Language Models empower them to follow freeform instructions, including imitating generic or specific demographic personas in conversations. Generic personas refer to an individual from a demographic group (e.g. an Asian person), whereas specific personas can be actual names of historical figures. While the adoption of personas allows dialogue systems to be more engaging and approachable to users, it also carries the potential risk of exacerbating social biases in model responses, further causing societal harms through interactions with users. In this paper, we systematically study "persona biases", which we define to be the sensitivity of harmful dialogue model behaviors to different persona adoptions. We categorize persona biases into biases in harmful expression and harmful agreement, as well as establish a comprehensive evaluation framework to measure persona biases in five aspects: Offensiveness, Toxic Continuation, Regard, Stereotype Agreement, and Toxic Agreement. Additionally, we propose to comprehensively investigate persona biases through experimenting with UniversalPersona, a systematized persona dataset with a comprehensive list of both generic and specific model personas. Through benchmarking on four different models, including Blender, ChatGPT, Alpaca, and Vicuna, our study uncovers significant persona biases in these dialogue systems.Findings of our study underscores the immediate need to revisit the use of persona traits in dialogue agents, to ensure their safe application.
翻訳日:2023-10-12 08:51:40 公開日:2023-10-08
# 法的意見における修辞的役割認識のための文位置埋め込みによる事前学習言語モデルの拡張

Enhancing Pre-Trained Language Models with Sentence Position Embeddings for Rhetorical Roles Recognition in Legal Opinions ( http://arxiv.org/abs/2310.05276v1 )

ライセンス: Link先を確認
Anas Belfathi, Nicolas Hernandez and Laura Monceaux(参考訳) 法領域は、法、法的議論、法的な意見を含む、かなりの量のテキスト分析を含む、巨大で複雑な分野である。 法律実務者は、これらのテキストを分析して、訴訟を理解し、判例を調査し、法的文書を作成する必要がある。 法的意見の規模は増え続けており、その複雑さと多様性から法的な意見の修辞的役割を正確に予測できるモデルを開発することはますます困難になっている。 本稿では,文書内の文位置情報の知識によって強化された事前学習言語モデル(PLM)を用いて,修辞的役割を自動的に予測する新しいモデルアーキテクチャを提案する。 LegalEval@SemEval2023コンペティションの注釈付きコーパスに基づいて、我々のアプローチはパラメータが少なく、結果として、グローバルコンテキストにおける階層モデルを用いた複雑なアーキテクチャと比較して計算コストが低いことが実証された。 さらに,局所文脈におけるBERTのみに基づく階層モデルにさらに注意を加えることで,文の位置情報を組み込んだ結果が向上することを示す。

The legal domain is a vast and complex field that involves a considerable amount of text analysis, including laws, legal arguments, and legal opinions. Legal practitioners must analyze these texts to understand legal cases, research legal precedents, and prepare legal documents. The size of legal opinions continues to grow, making it increasingly challenging to develop a model that can accurately predict the rhetorical roles of legal opinions given their complexity and diversity. In this research paper, we propose a novel model architecture for automatically predicting rhetorical roles using pre-trained language models (PLMs) enhanced with knowledge of sentence position information within a document. Based on an annotated corpus from the LegalEval@SemEval2023 competition, we demonstrate that our approach requires fewer parameters, resulting in lower computational costs when compared to complex architectures employing a hierarchical model in a global-context, yet it achieves great performance. Moreover, we show that adding more attention to a hierarchical model based only on BERT in the local-context, along with incorporating sentence position information, enhances the results.
翻訳日:2023-10-12 08:51:11 公開日:2023-10-08
# 画素をマスターピースに変換する:新しい分散Denoising CNN(DDCNN)を用いたAIによるアート復元

Transforming Pixels into a Masterpiece: AI-Powered Art Restoration using a Novel Distributed Denoising CNN (DDCNN) ( http://arxiv.org/abs/2310.05270v1 )

ライセンス: Link先を確認
Sankar B., Mukil Saravanan, Kalaivanan Kumar, Siri Dubbaka(参考訳) 芸術修復は文化遺産の保存に欠かせないが、伝統的な手法は、衰退、染色、損傷といった問題に対処しながら、オリジナルアートを忠実に再現することに限界がある。 本稿では,深層学習,特に畳み込みニューラルネットワーク(cnns)とコンピュータビジョン技術を用いて,芸術修復に革命をもたらす革新的なアプローチを提案する。 まず、さまざまな歪みと劣化レベルのアート画像の多様なデータセットを作成します。 このデータセットは、複雑な詳細を保持しながら歪みを取り除くためにDistributed Denoising CNN(DDCNN)をトレーニングする。 本手法は様々な歪みの種類やレベルに適応し,絵画,スケッチ,写真など,様々な劣化したアートワークに適合する。 大規模な実験は、他のDenoising CNNモデルと比較して、我々のアプローチの効率と有効性を示している。 歪みを大幅に減らし、劣化したアートワークを傑作に変換する。 定量的評価により, 従来の技術よりも優越し, 修復の場を再構築し, 文化遺産の保存を図った。 要約すると,コンピュータビジョンと深層学習を併用したAIを活用したソリューションをDDCNNに導入し,限界を克服し,将来的な芸術修復の道を開く。

Art restoration is crucial for preserving cultural heritage, but traditional methods have limitations in faithfully reproducing original artworks while addressing issues like fading, staining, and damage. We present an innovative approach using deep learning, specifically Convolutional Neural Networks (CNNs), and Computer Vision techniques to revolutionize art restoration. We start by creating a diverse dataset of deteriorated art images with various distortions and degradation levels. This dataset trains a Distributed Denoising CNN (DDCNN) to remove distortions while preserving intricate details. Our method is adaptable to different distortion types and levels, making it suitable for various deteriorated artworks, including paintings, sketches, and photographs. Extensive experiments demonstrate our approach's efficiency and effectiveness compared to other Denoising CNN models. We achieve a substantial reduction in distortion, transforming deteriorated artworks into masterpieces. Quantitative evaluations confirm our method's superiority over traditional techniques, reshaping the art restoration field and preserving cultural heritage. In summary, our paper introduces an AI-powered solution that combines Computer Vision and deep learning with DDCNN to restore artworks accurately, overcoming limitations and paving the way for future advancements in art restoration.
翻訳日:2023-10-12 08:50:51 公開日:2023-10-08
# Federated Learning: 最新の進歩と応用に関するカッティングエッジ調査

Federated Learning: A Cutting-Edge Survey of the Latest Advancements and Applications ( http://arxiv.org/abs/2310.05269v1 )

ライセンス: Link先を確認
Azim Akhtarshenas, Mohammad Ali Vahedifar, Navid Ayoobi, Behrouz Maham, Tohid Alizadeh(参考訳) クライアントホスト接続を備えた機械学習(ML)システムの領域では、セキュアな分散ML手法として、フェデレーションラーニング(FL)を通じて、プライバシーセキュリティの強化を効果的に実現することができる。 FLはクラウドインフラストラクチャを効果的に統合し、ブロックチェーン技術を使用してMLモデルをエッジサーバに転送する。 このメカニズムを通じて、スケーラビリティ、プライバシの考慮、コスト効率のよい通信に重点を置いた、集中型および分散型のシステムの処理とデータストレージ要件の合理化が保証される。 現在のFL実装では、データ所有者はモデルをローカルにトレーニングし、その結果を重み、勾配、パラメータの形式でクラウドにアップロードし、全体のモデルアグリゲーションを行う。 このイノベーションは、IoT(Internet of Things)クライアントや参加者が、生データや潜在的機密データをクラウドセンタに直接通信する必要性を回避します。 これにより、通信ネットワークに関連するコストを削減できるだけでなく、プライベートデータの保護も強化される。 この調査は最近のFLアプリケーションの分析と比較を行い、その効率、正確性、プライバシー保護を評価することを目的としている。 しかしながら、flの複雑で進化する性質を踏まえると、さらなる研究が、知識のギャップの持続に対処し、この分野の今後の課題に効果的に直面することが不可欠であることが明らかとなる。 本研究では,最近の文献を,プライバシ保護,資源配分,ケーススタディ分析,応用の3つのクラスタに分類する。 さらに、各節の最後に、参照文献に提示されるオープンエリアと今後の方向性を集計し、研究者や学者がこの分野の進化について洞察に富んだ見解を得る。

In the realm of machine learning (ML) systems featuring client-host connections, the enhancement of privacy security can be effectively achieved through federated learning (FL) as a secure distributed ML methodology. FL effectively integrates cloud infrastructure to transfer ML models onto edge servers using blockchain technology. Through this mechanism, it guarantees the streamlined processing and data storage requirements of both centralized and decentralized systems, with an emphasis on scalability, privacy considerations, and cost-effective communication. In current FL implementations, data owners locally train their models, and subsequently upload the outcomes in the form of weights, gradients, and parameters to the cloud for overall model aggregation. This innovation obviates the necessity of engaging Internet of Things (IoT) clients and participants to communicate raw and potentially confidential data directly with a cloud center. This not only reduces the costs associated with communication networks but also enhances the protection of private data. This survey conducts an analysis and comparison of recent FL applications, aiming to assess their efficiency, accuracy, and privacy protection. However, in light of the complex and evolving nature of FL, it becomes evident that additional research is imperative to address lingering knowledge gaps and effectively confront the forthcoming challenges in this field. In this study, we categorize recent literature into the following clusters: privacy protection, resource allocation, case study analysis, and applications. Furthermore, at the end of each section, we tabulate the open areas and future directions presented in the referenced literature, affording researchers and scholars an insightful view of the evolution of the field.
翻訳日:2023-10-12 08:50:30 公開日:2023-10-08
# 拡散モデルにおける再現性と一貫性の出現

The Emergence of Reproducibility and Consistency in Diffusion Models ( http://arxiv.org/abs/2310.05264v1 )

ライセンス: Link先を確認
Huijie Zhang, Jinfan Zhou, Yifu Lu, Minzhe Guo, Liyue Shen, Qing Qu(参考訳) 近年、拡散モデルが強力な深層生成モデルとして登場し、画像生成、逆問題を解く、テキストから画像への合成といった様々なアプリケーションで最先端の性能を示す。 これらのモデルは、ランダムノイズ入力を逆拡散プロセスで変換することで、新しいデータ(例えば画像)を生成する。 本研究では、他のほとんどの生成モデルとは対照的に、拡散モデル内では「一貫性のあるモデル再現性」と呼ばれる現象が明らかとなる。 詳しく言うと、我々の広範な実験は、決定論的解法で同じ初期ノイズ入力とサンプリングから始めると、拡散モデルはほぼ同じ出力コンテンツを生成する傾向があることを一貫して示してきた。 この一貫性は、モデルアーキテクチャとトレーニング手順の選択にかかわらず真である。 さらに、我々の研究は、この例外的なモデル再現性が2つの異なる訓練体制に現れることを明らかにした。 (i)「記憶体制」とは、主にトレーニングデータを記憶することで再現性を得る極めて過度なパラメータ化モデルを特徴とする。 (ii)「一般化体制」では、モデルが広範囲なデータセットで訓練され、その再現性はモデルの一般化能力とともに現れる。 我々の分析は,「記憶体制」におけるモデル再現性の理論的正当性を提供する。 さらに, この特性は, 条件拡散モデル, 逆問題を解く拡散モデル, 微調整拡散モデルなど, 拡散モデルの多くの変種に一般化することを示した。 この現象のより深い理解は、拡散モデルに基づくより解釈可能で制御可能なデータ生成プロセスをもたらす可能性がある。

Recently, diffusion models have emerged as powerful deep generative models, showcasing cutting-edge performance across various applications such as image generation, solving inverse problems, and text-to-image synthesis. These models generate new data (e.g., images) by transforming random noise inputs through a reverse diffusion process. In this work, we uncover a distinct and prevalent phenomenon within diffusion models in contrast to most other generative models, which we refer to as ``consistent model reproducibility''. To elaborate, our extensive experiments have consistently shown that when starting with the same initial noise input and sampling with a deterministic solver, diffusion models tend to produce nearly identical output content. This consistency holds true regardless of the choices of model architectures and training procedures. Additionally, our research has unveiled that this exceptional model reproducibility manifests in two distinct training regimes: (i) ``memorization regime,'' characterized by a significantly overparameterized model which attains reproducibility mainly by memorizing the training data; (ii) ``generalization regime,'' in which the model is trained on an extensive dataset, and its reproducibility emerges with the model's generalization capabilities. Our analysis provides theoretical justification for the model reproducibility in ``memorization regime''. Moreover, our research reveals that this valuable property generalizes to many variants of diffusion models, including conditional diffusion models, diffusion models for solving inverse problems, and fine-tuned diffusion models. A deeper understanding of this phenomenon has the potential to yield more interpretable and controllable data generative processes based on diffusion models.
翻訳日:2023-10-12 08:50:01 公開日:2023-10-08
# 骨格型距離変換による構造保存インスタンス分割

Structure-Preserving Instance Segmentation via Skeleton-Aware Distance Transform ( http://arxiv.org/abs/2310.05262v1 )

ライセンス: Link先を確認
Zudi Lin, Donglai Wei, Aarush Gupta, Xingyu Liu, Deqing Sun, Hanspeter Pfister(参考訳) 複雑な構造を持つオブジェクトは、境界や親和性マップに依存する既存のインスタンスセグメンテーションメソッドに重大な課題をもたらす。 距離変換(DT)は、インスタンスの内部と境界をより区別しやすくするが、様々な幅を持つインスタンスのオブジェクト内の接続性を見落とし、オーバーセグメンテーションをもたらす傾向にある。 これらの課題に対処するために、接続性を保つ際のオブジェクトスケルトンと任意の構造を持つインスタンスを表す幾何学的配置のモデリングにおけるDTの利点を組み合わせたスケルトン対応距離変換(SDT)を提案する。 病理組織像セグメンテーションに関する総合的な実験により,SDTが最先端の性能を発揮することが示された。

Objects with complex structures pose significant challenges to existing instance segmentation methods that rely on boundary or affinity maps, which are vulnerable to small errors around contacting pixels that cause noticeable connectivity change. While the distance transform (DT) makes instance interiors and boundaries more distinguishable, it tends to overlook the intra-object connectivity for instances with varying width and result in over-segmentation. To address these challenges, we propose a skeleton-aware distance transform (SDT) that combines the merits of object skeleton in preserving connectivity and DT in modeling geometric arrangement to represent instances with arbitrary structures. Comprehensive experiments on histopathology image segmentation demonstrate that SDT achieves state-of-the-art performance.
翻訳日:2023-10-12 08:49:35 公開日:2023-10-08
# 医療領域における医師と位置情報のロバスト検索のための知識グラフベース検索エンジン

A Knowledge Graph-Based Search Engine for Robustly Finding Doctors and Locations in the Healthcare Domain ( http://arxiv.org/abs/2310.05258v1 )

ライセンス: Link先を確認
Mayank Kejriwal, Hamid Haidarian, Min-Hsueh Chiu, Andy Xiang, Deep Shrestha, Faizan Javed(参考訳) 医師や場所の効率的な発見は、従来の情報検索手法が最適に機能しない医療領域の患者にとって重要な検索問題である。 過去10年間、知識グラフ(kgs)は、セマンティクスモデリング、情報抽出のような自然言語処理技術、sparqlやcypherといった構造化クエリ言語を用いたロバストなクエリといった半構造化データから洞察を引き出すための強力な方法として登場してきた。 本稿では、医療領域の医師や場所を確実に見つけるために、KGベースの検索エンジンアーキテクチャを提案する。 初期の結果は、このアプローチが品質を低下させることなく、複雑なクエリのカバレッジを著しく向上させることを示している。

Efficiently finding doctors and locations is an important search problem for patients in the healthcare domain, for which traditional information retrieval methods tend not to work optimally. In the last ten years, knowledge graphs (KGs) have emerged as a powerful way to combine the benefits of gleaning insights from semi-structured data using semantic modeling, natural language processing techniques like information extraction, and robust querying using structured query languages like SPARQL and Cypher. In this short paper, we present a KG-based search engine architecture for robustly finding doctors and locations in the healthcare domain. Early results demonstrate that our approach can lead to significantly higher coverage for complex queries without degrading quality.
翻訳日:2023-10-12 08:49:21 公開日:2023-10-08
# 組合せ問題に対する解サンプリングの最適化--政策グラディエント手法のランドスケープ

Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods ( http://arxiv.org/abs/2310.05309v1 )

ライセンス: Link先を確認
Constantine Caramanis, Dimitris Fotakis, Alkis Kalavasis, Vasilis Kontonis, Christos Tzamos(参考訳) 深層ニューラルネットワークと強化学習手法は、組合せ問題に取り組む上で大きな可能性を実証してきた。 これらの手法では、ディープニューラルネットワークを解生成器として使用し、勾配に基づく手法(例えばポリシー勾配)で訓練し、より良い解分布を連続的に得る。 本研究では,そのような手法の有効性を解析するための理論的枠組みを紹介する。 生成モデルが存在するかどうかを問うと i) ほぼ最適な解を生成するのに十分な表現性 (ii) 抽出可能な,すなわち入力の大きさの多項式,パラメータ数を有する。 (iii)その最適化の展望は、準最適静止点を含まないという意味で良質である。 私たちの主な貢献は、この質問に対するポジティブな答えです。 その結果,Max-およびMin-Cut,Max-$k$-CSP,Maximum-Weight-Bipartite-Matching,Traveing Salesman問題など,幅広い組み合わせの問題が得られた。 解析の副産物として,バニラ勾配降下の新たな正則化プロセスを導入し,脱落勾配問題に対処し,不動点を回避できることを理論的および実験的に証明する。

Deep Neural Networks and Reinforcement Learning methods have empirically shown great promise in tackling challenging combinatorial problems. In those methods a deep neural network is used as a solution generator which is then trained by gradient-based methods (e.g., policy gradient) to successively obtain better solution distributions. In this work we introduce a novel theoretical framework for analyzing the effectiveness of such methods. We ask whether there exist generative models that (i) are expressive enough to generate approximately optimal solutions; (ii) have a tractable, i.e, polynomial in the size of the input, number of parameters; (iii) their optimization landscape is benign in the sense that it does not contain sub-optimal stationary points. Our main contribution is a positive answer to this question. Our result holds for a broad class of combinatorial problems including Max- and Min-Cut, Max-$k$-CSP, Maximum-Weight-Bipartite-Matching, and the Traveling Salesman Problem. As a byproduct of our analysis we introduce a novel regularization process over vanilla gradient descent and provide theoretical and experimental evidence that it helps address vanishing-gradient issues and escape bad stationary points.
翻訳日:2023-10-12 08:42:39 公開日:2023-10-08
# コンビニアル・マルチアーマード・バンドに対する敵対的攻撃

Adversarial Attacks on Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2310.05308v1 )

ライセンス: Link先を確認
Rishab Balasubramanian, Jiawei Li, Prasad Tadepalli, Huazheng Wang, Qingyun Wu, Haoyu Zhao(参考訳) 我々は,コンビニアル・マルチアームバンド(CMAB)に対する報酬中毒攻撃について検討した。 まず,CMABの攻撃性について,スーパーアームの報酬分布やベースアームの成果分布など,対応するCMABインスタンスの本質的な特性に依存する十分な条件を提供する。 さらに,攻撃可能なCMABインスタンスに対する攻撃アルゴリズムを考案した。 マルチ武器の盗賊に対する事前の理解とは対照的に,我々の研究は,特定のCMABインスタンスの攻撃性が,盗賊インスタンスが敵に未知であるかによっても影響していることを明らかにする。 この結果から, CMAB に対する敵攻撃は実際は困難であり, CMAB インスタンスに対する一般的な攻撃戦略は存在しないことが明らかとなった。 我々は,確率的最大被覆問題,オンライン最小スパンニング木,オンラインランキング用カスケード帯状地,オンライン最短経路など,実世界のCMABアプリケーションに関する広範な実験を通じて理論的知見を検証する。

We study reward poisoning attacks on Combinatorial Multi-armed Bandits (CMAB). We first provide a sufficient and necessary condition for the attackability of CMAB, which depends on the intrinsic properties of the corresponding CMAB instance such as the reward distributions of super arms and outcome distributions of base arms. Additionally, we devise an attack algorithm for attackable CMAB instances. Contrary to prior understanding of multi-armed bandits, our work reveals a surprising fact that the attackability of a specific CMAB instance also depends on whether the bandit instance is known or unknown to the adversary. This finding indicates that adversarial attacks on CMAB are difficult in practice and a general attack strategy for any CMAB instance does not exist since the environment is mostly unknown to the adversary. We validate our theoretical findings via extensive experiments on real-world CMAB applications including probabilistic maximum covering problem, online minimum spanning tree, cascading bandits for online ranking, and online shortest path.
翻訳日:2023-10-12 08:42:18 公開日:2023-10-08
# 時系列異常検出に応用した条件量子GANにおける逐次データ注入

Successive Data Injection in Conditional Quantum GAN Applied to Time Series Anomaly Detection ( http://arxiv.org/abs/2310.05307v1 )

ライセンス: Link先を確認
Benjamin Kalfon, Soumaya Cherkaoui, Jean-Fr\'ed\'eric Laprade, Ola Ahmad and Shengrui Wang(参考訳) 古典的なGANアーキテクチャは、一般的な異常検出問題、特に通信ネットワークで発生するような時系列異常の解決に興味深い結果を示している。 近年、いくつかの量子GANアーキテクチャが文献で提案されている。 QGANを用いて時系列の異常を検出する場合、データのサイズに比べてキュービット数が限られているため、大きな問題が発生する。 これらの課題に対処するため,我々はシーケンシャルデータインジェクション(sudai)と呼ばれる新しい高次元エンコーディング手法を提案する。 本手法では,従来のアングルエンコーディング法よりも多くの量子状態を探索し,量子状態へのデータ注入を繰り返すことにより,主に文献で用いられる手法である。 SuDaIエンコーディングにより、既存のQGANよりもはるかに高次元のネットワークデータによる異常検出にQGANを適用することができる。 加えて、SuDaIエンコーディングは、他の種類の高次元時系列に適用され、異常検出やQGAN以外の文脈で使用することができるため、複数の分野のアプリケーションを開くことができる。

Classical GAN architectures have shown interesting results for solving anomaly detection problems in general and for time series anomalies in particular, such as those arising in communication networks. In recent years, several quantum GAN architectures have been proposed in the literature. When detecting anomalies in time series using QGANs, huge challenges arise due to the limited number of qubits compared to the size of the data. To address these challenges, we propose a new high-dimensional encoding approach, named Successive Data Injection (SuDaI). In this approach, we explore a larger portion of the quantum state than that in the conventional angle encoding, the method used predominantly in the literature, through repeated data injections into the quantum state. SuDaI encoding allows us to adapt the QGAN for anomaly detection with network data of a much higher dimensionality than with the existing known QGANs implementations. In addition, SuDaI encoding applies to other types of high-dimensional time series and can be used in contexts beyond anomaly detection and QGANs, opening up therefore multiple fields of application.
翻訳日:2023-10-12 08:42:00 公開日:2023-10-08
# 時間制約下での適応的画像オフロードのためのプログレッシブニューラル圧縮

Progressive Neural Compression for Adaptive Image Offloading under Timing Constraints ( http://arxiv.org/abs/2310.05306v1 )

ライセンス: Link先を確認
Ruiqi Wang, Hanyang Liu, Jiaming Qiu, Moran Xu, Roch Guerin, Chenyang Lu(参考訳) IoTデバイスはますます、エッジサーバ上で動作する機械学習(ML)アプリケーションのためのデータソースになりつつある。 デバイスからサーバへのデータ転送は、帯域幅が制限されるだけでなく、より重要なのは可変であるローカル無線ネットワーク上で行われることが多い。 さらに、物理的環境と相互作用するサイバー物理システムでは、画像のオフロードもタイミングの制約を受ける。 したがって、タイミング制約とIoTデバイスのリソース制約の下でMLアプリケーションの推論性能を最大化する適応的なアプローチを開発することが重要である。 本稿では,画像分類を対象とし,この問題の効率的な解法としてプログレッシブ・ニューラル・圧縮(PNC)を提案する。 ニューラル圧縮は、異なるMLアプリケーションのために画像を圧縮するために使われてきたが、既存のソリューションはしばしば、可変帯域上での時間制約のオフロードには適さない、固定サイズの出力を生成する。 この制限に対処するため、確率的テールドロップによる多重圧縮率を最適化する多目的レートレスオートエンコーダを訓練し、推論性能の重要性に応じて順序付けられた特徴を生成する圧縮ソリューションを作成する。 機能は利用可能な帯域幅に基づいてその順序で送信され、最終的にデッドラインで受信された機能のサブセットを使用して分類される。 我々は、IoTデバイスと無線ネットワークを介して接続されたエッジサーバからなるテストベッド上で、最先端のニューラル圧縮アプローチと従来の圧縮手法に対するPNCの利点を実証する。

IoT devices are increasingly the source of data for machine learning (ML) applications running on edge servers. Data transmissions from devices to servers are often over local wireless networks whose bandwidth is not just limited but, more importantly, variable. Furthermore, in cyber-physical systems interacting with the physical environment, image offloading is also commonly subject to timing constraints. It is, therefore, important to develop an adaptive approach that maximizes the inference performance of ML applications under timing constraints and the resource constraints of IoT devices. In this paper, we use image classification as our target application and propose progressive neural compression (PNC) as an efficient solution to this problem. Although neural compression has been used to compress images for different ML applications, existing solutions often produce fixed-size outputs that are unsuitable for timing-constrained offloading over variable bandwidth. To address this limitation, we train a multi-objective rateless autoencoder that optimizes for multiple compression rates via stochastic taildrop to create a compression solution that produces features ordered according to their importance to inference performance. Features are then transmitted in that order based on available bandwidth, with classification ultimately performed using the (sub)set of features received by the deadline. We demonstrate the benefits of PNC over state-of-the-art neural compression approaches and traditional compression methods on a testbed comprising an IoT device and an edge server connected over a wireless network with varying bandwidth.
翻訳日:2023-10-12 08:41:45 公開日:2023-10-08
# GestSync: しゃべる頭なしで話す人を決定する

GestSync: Determining who is speaking without a talking head ( http://arxiv.org/abs/2310.05304v1 )

ライセンス: Link先を確認
Sindhu B Hegde and Andrew Zisserman(参考訳) 本稿では,ジェスチャ・シンク(Gesture-Sync)という新たな同期タスクを導入する。 リップシンクと比較して、ジェスチャー同期は、声と唇の動きよりも声と体の動きの間にはるかにゆるやかな関係があるため、はるかに難しい。 本稿では,この課題に対してデュアルエンコーダモデルを導入し,rgbフレーム,キーポイント画像,キーポイントベクトルなどの入力表現を比較し,その性能とアドバンテージを評価する。 このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。 最後に,視聴覚同期のためのジェスチャ同期の応用と,群集内の話者を顔を見ずに判断する応用例を示す。 url{https://www.robots.ox.ac.uk/~vgg/research/gestsync} で、コード、データセット、事前トレーニングされたモデルが確認できる。

In this paper we introduce a new synchronisation task, Gesture-Sync: determining if a person's gestures are correlated with their speech or not. In comparison to Lip-Sync, Gesture-Sync is far more challenging as there is a far looser relationship between the voice and body movement than there is between voice and lip motion. We introduce a dual-encoder model for this task, and compare a number of input representations including RGB frames, keypoint images, and keypoint vectors, assessing their performance and advantages. We show that the model can be trained using self-supervised learning alone, and evaluate its performance on the LRS3 dataset. Finally, we demonstrate applications of Gesture-Sync for audio-visual synchronisation, and in determining who is the speaker in a crowd, without seeing their faces. The code, datasets and pre-trained models can be found at: \url{https://www.robots.ox.ac.uk/~vgg/research/gestsync}.
翻訳日:2023-10-12 08:41:20 公開日:2023-10-08
# 乳房マンモグラフィにおける潜時拡散モデルに基づく画像圧縮・圧縮フレームワーク

Image Compression and Decompression Framework Based on Latent Diffusion Model for Breast Mammography ( http://arxiv.org/abs/2310.05299v1 )

ライセンス: Link先を確認
InChan Hwang, MinJae Woo(参考訳) 本研究では,LDM(Latent Diffusion Model)を用いた医用画像の圧縮と圧縮のための新しい枠組みを提案する。 LDMは、画像圧縮過程において少ない計算資源を必要としながら、より優れた画像品質が得られる可能性を持つ、縮退拡散確率モデル(DDPM)の進歩を表す。 LDMとTorchvisionの医用画像データによる画像アップスケーリングへの応用が検討されており、従来の画像圧縮および圧縮アルゴリズムの代替として機能している。 実験の結果、このアプローチは従来のファイル圧縮アルゴリズムを超えており、圧縮されたファイルでトレーニングされた畳み込みニューラルネットワーク(CNN)モデルは、元のイメージファイルでトレーニングされたものと同等に機能することが示された。 このアプローチはまた、データセットのサイズを大幅に削減して、より小さなサイズで分散できるようにし、医療画像は医療機器の空間をはるかに少なくする。 この研究は、損失圧縮アルゴリズムのノイズ低減に拡張し、複雑なウェーブレットベースの損失レスアルゴリズムに代わるものである。

This research presents a novel framework for the compression and decompression of medical images utilizing the Latent Diffusion Model (LDM). The LDM represents advancement over the denoising diffusion probabilistic model (DDPM) with a potential to yield superior image quality while requiring fewer computational resources in the image decompression process. A possible application of LDM and Torchvision for image upscaling has been explored using medical image data, serving as an alternative to traditional image compression and decompression algorithms. The experimental outcomes demonstrate that this approach surpasses a conventional file compression algorithm, and convolutional neural network (CNN) models trained with decompressed files perform comparably to those trained with original image files. This approach also significantly reduces dataset size so that it can be distributed with a smaller size, and medical images take up much less space in medical devices. The research implications extend to noise reduction in lossy compression algorithms and substitute for complex wavelet-based lossless algorithms.
翻訳日:2023-10-12 08:41:07 公開日:2023-10-08
# ルートサブツリーによるグラフの自己認識

Tailoring Self-Attention for Graph via Rooted Subtrees ( http://arxiv.org/abs/2310.05296v1 )

ライセンス: Link先を確認
Siyuan Huang, Yunchong Song, Jiayue Zhou, Zhouhan Lin(参考訳) ローカル注意は、メッセージパッシングスキームの固有の問題のために、長距離情報を取得することの難しさに直面しているが、グローバル注意は階層的な近隣構造を反映しておらず、きめ細かいローカル情報を捉えることができない。 本稿では,上述の問題に対処するために,サブツリー注意(Subtree Attention, STA)と呼ばれる新しいマルチホップグラフアテンション機構を提案する。 STAは、完全アテンショナル構造とルート木をシームレスにブリッジし、STAが極端な設定の下でグローバルな注意を近似することを理論的に証明する。 マルチホップ近傍における注意重みの直接計算を行うことにより、STAは既存のグラフ注意機構の固有の問題を緩和する。 さらに,カーネル化されたソフトマックスを用いて,STAの効率的な形式を考案し,線形時間複雑性を実現する。 結果として得られたGNNアーキテクチャであるSTAGNNは、ホップ認識型アテンション戦略を活用する単純なSTAベースのグラフニューラルネットワークを提供する。 10のノード分類データセットの総合評価は、STAベースのモデルが既存のグラフ変換器やメインストリームのGNNより優れていることを示している。 コードはhttps://github.com/LUMIA-Group/SubTree-Attentionで入手できる。

Attention mechanisms have made significant strides in graph learning, yet they still exhibit notable limitations: local attention faces challenges in capturing long-range information due to the inherent problems of the message-passing scheme, while global attention cannot reflect the hierarchical neighborhood structure and fails to capture fine-grained local information. In this paper, we propose a novel multi-hop graph attention mechanism, named Subtree Attention (STA), to address the aforementioned issues. STA seamlessly bridges the fully-attentional structure and the rooted subtree, with theoretical proof that STA approximates the global attention under extreme settings. By allowing direct computation of attention weights among multi-hop neighbors, STA mitigates the inherent problems in existing graph attention mechanisms. Further we devise an efficient form for STA by employing kernelized softmax, which yields a linear time complexity. Our resulting GNN architecture, the STAGNN, presents a simple yet performant STA-based graph neural network leveraging a hop-aware attention strategy. Comprehensive evaluations on ten node classification datasets demonstrate that STA-based models outperform existing graph transformers and mainstream GNNs. The code is available at https://github.com/LUMIA-Group/SubTree-Attention.
翻訳日:2023-10-12 08:40:49 公開日:2023-10-08
# 質問応答プランによるビジュアルストーリーテリング

Visual Storytelling with Question-Answer Plans ( http://arxiv.org/abs/2310.05295v1 )

ライセンス: Link先を確認
Danyang Liu, Mirella Lapata, Frank Keller(参考訳) ビジュアルストーリーテリングは、画像シーケンスから魅力的な物語を生成することを目的としている。 既存のモデルは、例えば外部知識ソースや高度なグラフ構造を持つ画像シーケンスの表現を強化することに集中することが多い。 近年の進展にもかかわらず、物語はしばしば反復的で非論理的であり、詳細は欠落している。 これらの問題を緩和するため,我々は,事前学習した言語モデルと計画と視覚表現を統合する新しいフレームワークを提案する。 我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。 また、一連の質問と回答のペアを青写真プランとして活用し、優れたビジュアルコンセプトを選択し、それらをストーリーに組み立てる方法を決定する。 VISTベンチマーク(Huang et al., 2016)における自動的および人的評価は、ブループリントベースのモデルは、競合するベースラインや最先端システムと比較して、より一貫性があり、興味深く、自然なストーリーを生成することを示している。

Visual storytelling aims to generate compelling narratives from image sequences. Existing models often focus on enhancing the representation of the image sequence, e.g., with external knowledge sources or advanced graph structures. Despite recent progress, the stories are often repetitive, illogical, and lacking in detail. To mitigate these issues, we present a novel framework which integrates visual representations with pretrained language models and planning. Our model translates the image sequence into a visual prefix, a sequence of continuous embeddings which language models can interpret. It also leverages a sequence of question-answer pairs as a blueprint plan for selecting salient visual concepts and determining how they should be assembled into a narrative. Automatic and human evaluation on the VIST benchmark (Huang et al., 2016) demonstrates that blueprint-based models generate stories that are more coherent, interesting, and natural compared to competitive baselines and state-of-the-art systems.
翻訳日:2023-10-12 08:40:28 公開日:2023-10-08
# ハイ? それともハイ? GeNTEコーパスによるジェンダーニュートラル機械翻訳のベンチマーク

Hi Guys or Hi Folks? Benchmarking Gender-Neutral Machine Translation with the GeNTE Corpus ( http://arxiv.org/abs/2310.05294v1 )

ライセンス: Link先を確認
Andrea Piergentili, Beatrice Savoldi, Dennis Fucci, Matteo Negri, Luisa Bentivogli(参考訳) ジェンダーの不平等はコミュニケーションの実践に埋め込まれ、翻訳技術に永続しています。 これは、機械翻訳(MT)が不完全な二進性仮定をすることで男性やステレオタイプ表現にデフォルトとなるような文法性言語に翻訳する際に特に顕著になる。 我々の研究は、英語からイタリア語へのジェンダーニュートラル翻訳に重点を置くことで、包括的言語への需要が高まっている。 まず、専用のベンチマークの提案と、自動評価方法の検討です。 まず,性中立翻訳のための自然なバイリンガル・テストセットであるgenteについて紹介する。 次に、genteに基づいて、既存の参照に基づく評価アプローチを概説し、その限界を強調し、ジェンダー中立翻訳を評価するのにより適した参照フリー手法を提案する。

Gender inequality is embedded in our communication practices and perpetuated in translation technologies. This becomes particularly apparent when translating into grammatical gender languages, where machine translation (MT) often defaults to masculine and stereotypical representations by making undue binary gender assumptions. Our work addresses the rising demand for inclusive language by focusing head-on on gender-neutral translation from English to Italian. We start from the essentials: proposing a dedicated benchmark and exploring automated evaluation methods. First, we introduce GeNTE, a natural, bilingual test set for gender-neutral translation, whose creation was informed by a survey on the perception and use of neutral language. Based on GeNTE, we then overview existing reference-based evaluation approaches, highlight their limits, and propose a reference-free method more suitable to assess gender-neutral translation.
翻訳日:2023-10-12 08:40:14 公開日:2023-10-08
# msight: 自動走行車のためのエッジクラウドインフラストラクチャベースの知覚システム

MSight: An Edge-Cloud Infrastructure-based Perception System for Connected Automated Vehicles ( http://arxiv.org/abs/2310.05290v1 )

ライセンス: Link先を確認
Rusheng Zhang, Depu Meng, Shengyin Shen, Zhengxia Zou, Houqiang Li, Henry X. Liu(参考訳) 車両通信とネットワーク技術が進歩し続けており、コネクテッド・オートモービル(CAV)アプリケーションにとって重要なツールとしてインフラベースの路面認識が出現している。 位置決めの高まりにより、カメラやライダーを含む道端のセンサーは、物体の閉塞が減少する障害物のないビューをしばしば享受する。 これにより、車載認識よりも明確なアドバンテージが得られ、より堅牢で正確な道路物体の検出が可能になる。 本稿では,CAV専用に設計された最先端道路側認識システムであるMSightについて述べる。 MSightは、リアルタイム車両検出、ローカライゼーション、トラッキング、短期軌道予測を提供する。 評価は、車線レベルの精度を最小限のレイテンシで維持するシステムの能力を強調し、CAVの安全性と効率を高めるための潜在的な応用範囲を明らかにしている。 現在、MSightはミシガン州アンアーバー市の2車線のラウンドアバウトで24/7を運行している。

As vehicular communication and networking technologies continue to advance, infrastructure-based roadside perception emerges as a pivotal tool for connected automated vehicle (CAV) applications. Due to their elevated positioning, roadside sensors, including cameras and lidars, often enjoy unobstructed views with diminished object occlusion. This provides them a distinct advantage over onboard perception, enabling more robust and accurate detection of road objects. This paper presents MSight, a cutting-edge roadside perception system specifically designed for CAVs. MSight offers real-time vehicle detection, localization, tracking, and short-term trajectory prediction. Evaluations underscore the system's capability to uphold lane-level accuracy with minimal latency, revealing a range of potential applications to enhance CAV safety and efficiency. Presently, MSight operates 24/7 at a two-lane roundabout in the City of Ann Arbor, Michigan.
翻訳日:2023-10-12 08:39:55 公開日:2023-10-08
# ChatGPTの推論能力の測定

Measuring reasoning capabilities of ChatGPT ( http://arxiv.org/abs/2310.05993v1 )

ライセンス: Link先を確認
Adrian Groza(参考訳) 推論タスクに適用した場合、ChatGPTが生成する論理的欠陥を定量化する。 実験では、ライブラリ \url{https://users.utcluj.ro/~agroza/puzzles/maloga}~\cite{groza:fol} の144のパズルを使用します。 このライブラリには、算術パズル、論理方程式、数独様パズル、ゼブラ様パズル、真理占いパズル、格子パズル、奇数、自己参照パズルなど、様々なタイプのパズルが含まれている。 これらのパズルの正しい解は、定理証明器 Prover9~\cite{mccune 2005release} と有限モデルファインダー Mace4~\cite{mccune2003mace4} を用いて、等式一階論理の人間モデリングに基づいて検証された。 この研究の最初の成果は100の論理パズルのベンチマークである。 このデータセットに対してChatGPTは、正解と正解の両方を7\%で提供した。 %,bardは5\%であった。 データセットは難しいように見えるため、研究者はChatGPT3.5よりも高度なモデルやチューニングされたモデルでデータセットをテストするよう招待されている。 第2の出力はChatGPTが伝達する推論障害の分類である。 この分類は、大きな言語モデルによって生成された推論障害の分類の基礎を形成する。 私は67の論理的な欠陥を特定した: 矛盾、含意、主張の禁止、常識の欠如、誤った正当化。 ChatGPTによって生成される100の解は698の論理的欠陥を含む。 これは、推論タスク毎に平均7つの誤用です。 第3のouputは、対応する論理障害に対するchatgptの注釈付き回答である。 ChatGPTの回答内の間違った文は手動で注釈付けされ、言語モデルによって生成された欠陥テキストの量を定量化することを目的としていた。 平均すると、生成されたテキストから26.03\%が論理的な欠点である。

I shall quantify the logical faults generated by ChatGPT when applied to reasoning tasks. For experiments, I use the 144 puzzles from the library \url{https://users.utcluj.ro/~agroza/puzzles/maloga}~\cite{groza:fol}. The library contains puzzles of various types, including arithmetic puzzles, logical equations, Sudoku-like puzzles, zebra-like puzzles, truth-telling puzzles, grid puzzles, strange numbers, or self-reference puzzles. The correct solutions for these puzzles were checked using the theorem prover Prover9~\cite{mccune2005release} and the finite models finder Mace4~\cite{mccune2003mace4} based on human-modelling in Equational First Order Logic. A first output of this study is the benchmark of 100 logical puzzles. For this dataset ChatGPT provided both correct answer and justification for 7\% only. %, while BARD for 5\%. Since the dataset seems challenging, the researchers are invited to test the dataset on more advanced or tuned models than ChatGPT3.5 with more crafted prompts. A second output is the classification of reasoning faults conveyed by ChatGPT. This classification forms a basis for a taxonomy of reasoning faults generated by large language models. I have identified 67 such logical faults, among which: inconsistencies, implication does not hold, unsupported claim, lack of commonsense, wrong justification. The 100 solutions generated by ChatGPT contain 698 logical faults. That is on average, 7 fallacies for each reasoning task. A third ouput is the annotated answers of the ChatGPT with the corresponding logical faults. Each wrong statement within the ChatGPT answer was manually annotated, aiming to quantify the amount of faulty text generated by the language model. On average, 26.03\% from the generated text was a logical fault.
翻訳日:2023-10-12 04:18:38 公開日:2023-10-08
# 文脈手がかりと役割関連による文書レベルのイベント引数抽出の強化

Enhancing Document-level Event Argument Extraction with Contextual Clues and Role Relevance ( http://arxiv.org/abs/2310.05991v1 )

ライセンス: Link先を確認
Wanlong Liu, Shaohuan Cheng, Dingyi Zeng, Hong Qu(参考訳) 文書レベルのイベント引数抽出は、文レベルの文よりも長い入力とクロスセンテンス推論の新たな課題を提起する。 しかしながら、ほとんどの先行研究は、各イベントにおける候補引数とイベントトリガーの関係を把握し、2つの重要なポイントを無視している。 a) 暗黙の文脈的手がかり情報 b) 議論の役割の関連性 本稿では,span-trigger-based context pooling and latent role guidance(span-trigger-based context pooling)モデルを提案する。 STCP(Span-Trigger-based Contextual Pooling)は、事前訓練されたモデルから特定の引数-トリガーペアのコンテキストアテンション重みに基づいて、非議論的手がかり語の情報を適応的に選択・集約する。 Role-based Latent Information Guidance (RLIG)モジュールは、潜在ロール表現を構築し、ロール間エンコーディングを通じて相互作用させ、意味的関連性をキャプチャし、それらを候補引数にマージする。 STCPとRLIGはいずれもベースモデルと比較して1%以上の新しいパラメータを導入せず、コンパクトで移植可能な他のイベント抽出モデルにも容易に適用できる。 2つの公開データセットの実験により、SCPRGは、それぞれRAMSとWikiEventsの1.13 F1と2.64 F1の改善により、従来の最先端メソッドよりも優れていたことが示されている。 さらなる分析は、我々のモデルの解釈可能性を示す。

Document-level event argument extraction poses new challenges of long input and cross-sentence inference compared to its sentence-level counterpart. However, most prior works focus on capturing the relations between candidate arguments and the event trigger in each event, ignoring two crucial points: a) non-argument contextual clue information; b) the relevance among argument roles. In this paper, we propose a SCPRG (Span-trigger-based Contextual Pooling and latent Role Guidance) model, which contains two novel and effective modules for the above problem. The Span-Trigger-based Contextual Pooling(STCP) adaptively selects and aggregates the information of non-argument clue words based on the context attention weights of specific argument-trigger pairs from pre-trained model. The Role-based Latent Information Guidance (RLIG) module constructs latent role representations, makes them interact through role-interactive encoding to capture semantic relevance, and merges them into candidate arguments. Both STCP and RLIG introduce no more than 1% new parameters compared with the base model and can be easily applied to other event extraction models, which are compact and transplantable. Experiments on two public datasets show that our SCPRG outperforms previous state-of-the-art methods, with 1.13 F1 and 2.64 F1 improvements on RAMS and WikiEvents respectively. Further analyses illustrate the interpretability of our model.
翻訳日:2023-10-12 04:18:07 公開日:2023-10-08
# Pseudolabelsを介する冠状動脈分割術の病的診断における有用性の検討

Data Augmentation through Pseudolabels in Automatic Region Based Coronary Artery Segmentation for Disease Diagnosis ( http://arxiv.org/abs/2310.05990v1 )

ライセンス: Link先を確認
Sandesh Pokhrel, Sanjay Bhandari, Eduard Vazquez, Yash Raj Shrestha, Binod Bhattarai(参考訳) 冠状動脈疾患(CAD)は予防できるが、死と障害の主な原因の1つである。 これらの病気の診断は、しばしば困難かつ資源集約的である。 血管造影画像における動脈の分節化は, 臨床医の正確な診断を支援する補助具として進化してきた。 しかし、データ量が限られており、データセットのキュレーションが難しいため、セグメンテーションのタスクは難しいことが証明されている。 本研究では,データ拡張手法として擬似ラベルを用いることにより,ベースラインヨロモデルの性能向上を図る。 この方法は、検証データセットで9%、テストデータセットで3%、ベースラインのF1スコアを上昇させる。

Coronary Artery Diseases(CADs) though preventable are one of the leading causes of death and disability. Diagnosis of these diseases is often difficult and resource intensive. Segmentation of arteries in angiographic images has evolved as a tool for assistance, helping clinicians in making accurate diagnosis. However, due to the limited amount of data and the difficulty in curating a dataset, the task of segmentation has proven challenging. In this study, we introduce the idea of using pseudolabels as a data augmentation technique to improve the performance of the baseline Yolo model. This method increases the F1 score of the baseline by 9% in the validation dataset and by 3% in the test dataset.
翻訳日:2023-10-12 04:17:40 公開日:2023-10-08